了解搜索组件
AI 搜索解决方案包含多个组件,每个组件在提取、丰富、索引和搜索数据的过程中都起着重要作用。
数据源
大多数搜索解决方案都从数据源开始,其中包含要搜索的数据。 Azure AI 搜索支持多种类型的数据源,包括:
- Azure blob 存储容器中的非结构化文件。
- Azure SQL 数据库中的表。
- Cosmos DB 中的文档。
Azure AI 搜索可以从这些数据源拉取数据,以便进行索引。
或者,应用程序可以将 JSON 数据直接推送到索引,而无需从现有数据存储中拉取。
技能集
在基本搜索解决方案中,你可以对从数据源提取的数据建立索引。 可以提取的信息取决于数据源。 例如,对数据库的数据进行索引时,可能会提取数据库表中的字段;或者,在对一组文档进行索引时,可能会随文档的文本内容一起提取文件元数据(如文件名、修改日期、大小和作者)。
虽然对直接从数据源中提取的数据值进行索引的基本搜索解决方案可能很有用,但新式应用程序用户希望能够从数据中获得更丰富的见解。 在 Azure AI 搜索中,你可以在索引过程中应用人工智能 (AI) 技能,以使用可映射到索引字段的新信息来扩充源数据。 索引器使用的技能封装在一个技能集中,该技能集中定义了一个扩充管道,其中每个步骤都通过特定 AI 技能获得的见解扩充了源数据。 AI 技能可以提取的信息类型示例包括:
- 文档的书写语言。
- 可帮助确定文档中所讨论主要主题或话题的关键短语。
- 用于量化文档正面或负面程度的情绪分数。
- 内容中提到的特定位置、人员、组织或地标。
- AI 生成的图像描述,或光学字符识别提取的图像文本。
- 为满足特定要求而开发的自定义技能。
索引
索引器是驱动整个索引过程的引擎。 它采用使用技能组中的技能提取的输出,以及从原始数据源中提取的数据和元数据值,并将它们映射到索引中的字段。
创建索引器后,索引器会自动运行,并且可以计划为定期运行,也可以按需运行以向索引添加更多文档。 在某些情况下,例如向索引添加新字段或将新的技能添加到技能组时,可能需要重置索引,然后再重新运行索引器。
索引
索引是索引过程的可搜索结果。 它包含 JSON 文档集合,其中的字段包含在索引编制过程中提取的值。 客户端应用程序可以查询索引以检索、筛选和排序信息。
可以为每个索引字段配置以下属性:
- key:定义索引记录的唯一键的字段。
- searchable:可使用全文搜索进行查询的字段。
- filterable:可以包含在筛选表达式中的字段,用于仅返回与指定约束匹配的文档。
- sortable:可用于对结果进行排序的字段。
- facetable:可用于确定 facet 值的字段(用于基于已知字段值的列表筛选结果的用户界面元素)。
- retrievable:可以包含在搜索结果中的字段(默认情况下,所有字段都是可检索的,除非这个属性被显式删除)。