瞭解內嵌
內嵌是機器學習模型所使用的資料表示類型。 內嵌代表文字片段的語意意義。 您可以將內嵌視覺化為數字陣列,而兩個內嵌之間的數值距離代表其語意相似性。 例如,如果兩個文字相似,則其標記法也應該類似。
內嵌模型
搜尋結果的有效性,與內嵌模型的有效性直接相關。
有特別建立的模型以執行特定的工作。 使用 相似度 搜尋內嵌來擷取文字片段之間的語意相似性; 文字 搜尋內嵌可以查看長型文件與簡短查詢的相關性;使用 [程式碼] 搜尋內嵌來使用內嵌程式碼片段和自然語言搜尋查詢。
使用者會使用如文字內嵌-ada-002 模型來產生文字內嵌,以提供輸入給內嵌模型,將文字轉換成向量。
結果將會是符合搜尋索引中所含查詢的任何文件。 包含向量欄位的內嵌文件必須存在於搜尋索引中,而且相同的模型必須用於編制索引和查詢。
內嵌空間
內嵌空間是向量查詢的核心,其中包含來自相同內嵌模型的所有向量欄位。 它包含使用相同模型填入的所有向量欄位。
在此內嵌空間中,類似的項目會放在一起,而不同的項目則位於更遠的地方。
例如,討論具有水上樂園旅館的文件將會在內嵌空間中緊密結合,而沒有這項設施的旅館儘管仍在旅館附近但會更遠。 不同的概念,例如餐廳則會更遠。 實際上,內嵌空間是抽象的,沒有完整定義的可讓人理解的意義,但核心想法保持不變。