基于自有数据结合 Azure OpenAI，可以让GPT-35-Turbo 和 GPT-4无需 训练或微调 即可基于私有的数据运行聊天模型。

主要优势：能够定制对话式 AI 的内容；模型有权访问并可引用特定源来支持其回复，因此答案不仅基于其预先训练的知识，还基于指定数据源中提供的最新信息。这些基础数据还有助于模型避免过时或不正确的信息生成回复。

主要特点：能够以增强模型输出的方式检索和利用数据；根据用户输入和提供的对话历史记录确定从指定数据源检索哪些数据；然后，作为提示重新提交到 OpenAI 模型，并将检索到的信息追加到原始提示中。

数据处理

自有数据的使用需要依赖 Azure Cognitive Search来构建索引，以便根据用户输入或对话历史确定检索的内容。

对于包含长文本的文档和数据集，应使用可用的数据准备脚本将数据引入认知搜索。该脚本可将数据分块，以实现更准确的对服务的响应。此脚本还支持扫描的 PDF 文件和图像，并使用文档智能引入数据。

基于自有数据的 Azure OpenAI 支持以下文件类型：

如果有内部的知识库，完全可以基于此构建垂直领域的专有chat工具，且不需要进行微调或训练。

本系列的所有文章：

相关文章