埋め込みについて理解する

完了

埋め込みは、機械学習モデルで使用されるデータ表現の種類です。 埋め込みは、テキストのセマンティックな意味を表します。 埋め込みは数値の配列として視覚化でき、2 つの埋め込み間の数値の間隔がそのセマンティック類似性を表します。 たとえば、2 つのテキストが似ている場合、その表現も似ている必要があります。

埋め込みモデル

検索結果がどの程度有効であるかは、埋め込みモデルの有効性と直接相関します。

特定のタスクを適切に実行するために特別に作成されたモデルがあります。 類似性検索の埋め込みを使用すると、テキスト間のセマンティックの類似性をキャプチャすることができます。テキスト検索埋め込みでは、長いドキュメントと短いクエリの関連性を確認できます。コード検索埋め込みを使用し、埋め込みコード スニペットと自然言語検索クエリを使用します。

ユーザーは、テキストをベクトルに変換する埋め込みモデル (たとえば、テキスト埋め込を生成する text-embedding-ada-002 モデル) のクエリに入力を提供します。

その結果は、検索インデックスに含まれるクエリに一致する任意のドキュメントになります。 ベクター フィールドを含む埋め込みを含むドキュメントは、検索インデックスに存在する必要があり、同じモデルをインデックス作成とクエリに使用する必要があります。

埋め込みスペース

埋め込みスペースは、同じ埋め込みモデルのすべてのベクター フィールドを含むベクター クエリの中核です。 これは、同じモデルを使用して入力されたすべてのベクター フィールドを含みます。

この埋め込みスペースでは、類似項目は近くに配置され、異なる項目は離れた場所に配置されます。

たとえば、ウォーター パークがあるホテルについて言及しているドキュメントは、埋め込みスペース内で近くに配置されますが、この施設のないホテルは、ホテルの近隣にあっても、離れた場所に配置されます。 レストランなどの異なる概念はさらに遠くになるでしょう。 実際には、埋め込みスペースは抽象的であり、人が理解できる明確に定義された意味はありませんが、中心となる考え方は同じです。