了解嵌入
嵌入是机器学习模型使用的一种数据表示类型。 嵌入表示文本片段的语义。 可以将嵌入可视化为数字数组,两个嵌入之间的数值距离表示它们的语义相似性。 例如,如果两个文本相似,则它们的表示形式也应该相似。
嵌入模型
搜索结果的有效性与嵌入式模型的有效性直接相关。
可以使用专门创建的模型来顺利执行特定的任务。 使用“相似性”搜索嵌入可以捕获文本片段之间的语义相似性;“文本”搜索嵌入可以查看长文档与短查询的相关性;使用嵌入代码片段以及使用“代码”搜索嵌入的自然语言搜索查询。
用户向嵌入模型查询提供输入,该输入将通过 text-embedding-ada-002 之类的模型从文本转换为矢量,以生成文本嵌入。
结果是与搜索索引中包含的查询匹配的任何文档。 其嵌入包含矢量字段的文档必须存在于搜索索引中,并且必须使用相同的模型进行索引编制和查询。
嵌入空间
嵌入空间是矢量查询的核心,包含来自同一嵌入模型的所有矢量字段。 它由使用同一模型填充的所有矢量字段组成。
在此嵌入空间中,相似的项位置相互靠近,而不相似的项位置相距较远。
例如,关于有水上公园的酒店的文件在嵌入空间中会靠得很近,而没有水上公园的酒店则会离得较远,但仍属于酒店的邻近区域。 诸如餐馆之类的不同概念则相距更远。 在实践中,嵌入空间是抽象的,没有人们可以理解的明确定义的含义,但核心思想保持不变。