添加自己的数据源

已完成

数据的添加通过 Azure AI Studio、在聊天操场中或通过在 API 调用中指定数据源来完成。 然后使用添加的数据源来增强发送到模型的提示。 在工作室中设置数据时,可以选择上传数据文件、使用 Blob 存储帐户中的数据或连接到现有的 AI 搜索索引。

如果要上传或使用存储帐户中已有的文件,则 Azure OpenAI 支持的数据格式包括 .md.txt.html.pdf 以及 Microsoft Word 和 PowerPoint 文件。 如果其中任何文件包含图形或图像,则响应质量取决于对视觉内容提取文本的效果。

上传数据或连接到存储帐户中的文件时,建议使用 Azure AI Studio 创建搜索资源和索引。 通过此方式添加数据,可以在插入索引时进行适当的分块,从而产生更好的响应。 如果使用大型文本文件或表单,则应使用可用的数据准备脚本来提高 AI 模型的准确性。

为 AI 搜索服务启用语义搜索可以优化搜索数据索引的结果,并且可能会收到更高质量的响应和引文。 但启用语义搜索可能会增加搜索服务的成本。

还可以在 AI 搜索资源中使用向导来适当地将数据向量化,你将在本模块的练习中演练该操作。 与 AI Studio 中相比,在这里此操作需要一些额外步骤,但却是将 RAG 模式与现有数据集结合使用的一个很好的例子。

连接数据

要连接数据,请导航到 Azure AI Studio 中的聊天操场,然后选择“添加数据”选项卡。选择“添加数据源”按钮以连接数据。 系统提示将引导你设置与每个数据源之间的连接,并将该数据放入搜索索引。

提示

如果使用 AI Studio 中的向导创建和连接数据源,则需要创建一个中心和一个项目,这不在本文范围内。 AI Studio 将指导你完成此操作,也可参考 AI Studio 文档

如果使用的是自己的索引(不是通过 Azure AI Studio 创建的索引),则能通过其中一个页面指定列映射。 请务必提供准确的字段(尤其是内容数据),让模型能够提供更好的响应。

Azure AI Studio 索引字段映射的屏幕截图。