你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
快速入门:在 Azure 门户中创建知识存储
在本快速入门中,你将创建知识存储,以充当从 Azure AI 搜索的 AI 扩充管道中生成的输出的存储库。 知识存储使生成的内容可以在 Azure 存储中用于搜索以外的工作负载。
首先,在 Azure 存储中设置一些示例数据。 接着,运行导入数据向导以创建同样会生成知识存储的扩充管道。 知识存储会包含从数据源(客户对酒店的评论)提取的原始源内容,以及 AI 生成的内容,包括情绪标签、关键短语提取和非英语客户评论的文本翻译。
先决条件
开始之前,必须具备以下先决条件:
具有活动订阅的 Azure 帐户。 免费创建帐户。
在 Azure 存储中托管的示例数据:
下载 HotelReviews_Free.csv。 此 CSV 包含了关于一家酒店的 19 条客户反馈(源自 Kaggle.com)。 该文件位于包含其他示例数据的存储库中。 如果不需要整个存储库,请复制原始内容并将其粘贴到设备上的电子表格应用中。
此快速入门还将 Azure AI 服务用于 AI 扩充。 由于工作负载很小,因此在后台使用 Azure AI 服务来免费处理事务(最多 20 个事务)。 这意味着,无需创建额外的 Azure AI 多服务资源就能完成此练习。
启动向导
步骤 1:创建数据源
由于数据在一个 CSV 文件中包含多行,因此请设置分析模式,为每一行获取一个搜索文档。
在“连接到数据”中,选择“Azure Blob 存储” 。
对于名称,请输入“hotel-reviews-ds”。
对于“要提取的数据”,请选择“内容和元数据”。
对于“分析模式”,请选择“分隔文本”,然后选中“第一行包含标头”复选框。 确保“分隔符”是逗号 (,)。
在“连接字符串”中,如果存储帐户位于同一订阅中,请选择现有连接。 否则,请粘贴 Azure 存储账户的连接字符串。
连接字符串可以有完全访问权限,具有以下格式:
DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net
连接字符串也可以引用托管标识,前提是已在 Azure 存储中为其配置并分配了角色:
ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;
在“容器”中,输入保存数据的 Blob 容器的名称(“hotel-reviews”)。
页面应类似于以下屏幕截图。
继续转到下一页。
步骤 2:添加技能
在此向导步骤中,添加 AI 扩充技能。 源数据包括用英文和法语撰写的客户评论。 与此数据集相关的技能包括关键短语提取、情绪检测和文本翻译。 在后续步骤中,这些扩充内容会以 Azure 表的形式“投影”到知识存储。
展开“附加 Azure AI 服务”。 默认已选择“免费(受限扩充)”。 之所以可以使用此资源,是因为 HotelReviews-Free.csv 中的记录数为 19 个,并且此免费资源每天最多允许 20 个事务。
展开“添加扩充”。
对于“技能组名称”,请输入“hotel-reviews-ss”。
对于“源数据字段”,请选择“reviews_text”。
对于“扩充粒度级别”,请选择“页面(5000 个字符区块)” 。
对于“文本认知技能”,请选择以下技能:
- 提取关键短语
- 翻译文本
- 语言检测
- 检测情绪
页面应类似于以下屏幕截图所示:
向下滚动并展开“将扩充内容保存到知识存储”。
选择“选择现有连接”,然后选择 Azure 存储账户。 此时会显示“容器”页,以便你为投影创建容器。 建议采用前缀命名约定(如“kstore-hotel-reviews”)来区分源内容和知识存储内容。
返回到“导入数据”向导,选择以下“Azure 表投影”。 向导始终提供“文档”投影。 会根据你选择的技能(例如关键短语)或扩充粒度(页面)提供其他投影:
- 文档
- 页
- 关键短语
以下屏幕截图显示向导中的表投影选择。
继续转到下一页。
步骤 3:配置索引
在此向导步骤中,为可选的全文搜索查询配置索引。 知识存储不需要搜索索引,但索引器需要才能运行。
在此步骤中,向导会对数据源进行采样,以推断字段和数据类型。 你只需为所需的行为选择属性。 例如,可检索属性允许搜索服务返回字段值,而可搜索属性对字段启用全文搜索。
对于“索引名称”,请输入“hotel-reviews-idx”。
对于属性,请接受默认选项:“可检索”和“可搜索”(对于管道正在创建的新字段) 。
索引应与下图类似: 由于该列表很长,图像中未显示所有字段。
继续转到下一页。
步骤 4:配置和运行索引器
在此向导步骤中,配置索引器,用于统一提取前面向导步骤中定义的数据源、技能集和索引。
对于名称,请输入“hotel-reviews-idxr”。
对于“计划”,请保留默认设置“一次”。
选择“提交”运行索引器。 数据提取、索引编制和应用认知技能的操作都在此步骤中发生。
步骤 5:检查状态
在“概述”页面中,打开页面中间的“索引器”选项卡,然后选择“hotels-reviews-idxr” 。 在一两分钟内,状态应从“正在进行”变为“成功”,且没有任何错误和警告。
检查 Azure 门户中的表
在 Azure 门户中,打开用于创建知识存储的存储帐户。
在存储帐户的左侧导航窗格中,选择“存储浏览器”以查看新表。
应会看到三个表,每个表对应于“添加扩充”页的“保存扩充”部分提供的每个投影。
“hotelReviewssDocuments”包含文档扩充树中所有不是集合的第一级节点。
“hotelReviewssKeyPhrases”包含一长串从所有评论中提取的关键短语。 输出集合(数组)(例如关键短语和实体)的技能会将输出发送到独立表。
“hotelReviewssKeyPhrases”包含在从文档拆分的每个页面上创建的扩充字段。 在此技能组和数据源中,页面级扩充由情绪标签和已翻译的文本组成。 当你在技能组定义中选择“pages”粒度时,系统会创建一个 pages 表;如果指定 sentences 这个特定级别的粒度,则会创建一个 sentences 表。
所有这些表都包含 ID 列,以支持其他工具和应用中的表关系。 打开表时,滚动浏览这些字段可查看管道添加的内容字段。
本快速入门中的“hotelReviewssPages”表应类似于以下屏幕截图:
清理
在自己的订阅中操作时,最好在项目结束时确定是否仍需要已创建的资源。 持续运行资源可能会产生费用。 可以逐个删除资源,也可以删除资源组以删除整个资源集。
可以使用左侧导航窗格中的“所有资源”或“资源组”链接 ,在门户中查找和管理资源。
如果使用的是免费服务,请记住只能设置三个索引、索引器和数据源。 可以在门户中删除单个项目,以不超出此限制。
提示
若要重复此练习或尝试其他 AI 扩充演练,请删除 hotel-reviews-idxr 索引器和相关对象以重新创建它们。 删除该索引器会将每日的免费事务计数器重置为零。
后续步骤
现在,你已了解知识存储,请通过切换到 REST API 演练来仔细查看每个步骤。 REST 演练中介绍了向导在内部处理的任务。