添加自己的数据源
数据的添加通过 Azure AI Studio、在聊天操场中或通过在 API 调用中指定数据源来完成。 然后使用添加的数据源来增强发送到模型的提示。 在工作室中设置数据时,可以选择上传数据文件、使用 Blob 存储帐户中的数据或连接到现有的 AI 搜索索引。
如果要上传或使用存储帐户中已有的文件,则 Azure OpenAI 支持的数据格式包括 .md
、.txt
、.html
、.pdf
以及 Microsoft Word 和 PowerPoint 文件。 如果其中任何文件包含图形或图像,则响应质量取决于对视觉内容提取文本的效果。
上传数据或连接到存储帐户中的文件时,建议使用 Azure AI Studio 创建搜索资源和索引。 通过此方式添加数据,可以在插入索引时进行适当的分块,从而产生更好的响应。 如果使用大型文本文件或表单,则应使用可用的数据准备脚本来提高 AI 模型的准确性。
为 AI 搜索服务启用语义搜索可以优化搜索数据索引的结果,并且可能会收到更高质量的响应和引文。 但启用语义搜索可能会增加搜索服务的成本。
还可以在 AI 搜索资源中使用向导来适当地将数据向量化,你将在本模块的练习中演练该操作。 与 AI Studio 中相比,在这里此操作需要一些额外步骤,但却是将 RAG 模式与现有数据集结合使用的一个很好的例子。
连接数据
要连接数据,请导航到 Azure AI Studio 中的聊天操场,然后选择“添加数据”选项卡。选择“添加数据源”按钮以连接数据。 系统提示将引导你设置与每个数据源之间的连接,并将该数据放入搜索索引。
提示
如果使用 AI Studio 中的向导创建和连接数据源,则需要创建一个中心和一个项目,这不在本文范围内。 AI Studio 将指导你完成此操作,也可参考 AI Studio 文档。
如果使用的是自己的索引(不是通过 Azure AI Studio 创建的索引),则能通过其中一个页面指定列映射。 请务必提供准确的字段(尤其是内容数据),让模型能够提供更好的响应。