次の方法で共有


ai_similarity 関数

適用対象:「はい」のチェック マーク Databricks SQL 「はい」のチェック マーク Databricks Runtime

重要

この機能はパブリック プレビュー段階にあります。

このプレビューでは:

  • 基になる言語モデルでは複数の言語を処理できますが、これらの関数は英語用にチューニングされています。
  • 基になる Foundation Model API にはレート制限があります。 Foundation Model API の制限については、 から update のこれらの制限を参照してください。
  • レート制限のため、この関数は 100 行未満の小さなデータセットでテストするように設計されています。 データが 100 行を超えるユース ケースの場合、Databricks では、ai_query とプロビジョニングされたスループット エンドポイントの使用をお勧めします。 を参照してください。ai_queryを使用してバッチLLM推論を実施します。

ai_similarity() 関数は、Databricks Foundation Model API から最先端の生成 AI モデルを呼び出して、2 つの文字列を比較し、SQL を使用してセマンティック類似性スコアを計算します。

要件

重要

現時点で使用できる基になるモデルは、 Apache 2.0 ライセンス、Copyright © The Apache Software Foundation または LLAMA 3.1 Community License Copyright © Meta Platforms, Inc. に基づきライセンスされます。すべての権限が予約されています。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

Databricks では、該当する使用条件に準拠するために、これらのライセンスを確認することをお勧めしています。 Databricks の内部ベンチマークに従ってパフォーマンスが向上するモデルが将来出現した場合、Databricks によってモデル (およびこのページで提供される適用可能なライセンスの list) が変更される可能性があります。

現在、 GTE Large (英語) は、この AI 機能を活用する基になるモデルです。

Note

Databricks Runtime 15.1 以上では、この関数は Databricks ノートブック内でサポートされ、これには Databricks ワークフロー内でタスクとして実行されるノートブックも含まれます。

構文

ai_similarity(expr1, expr2)

引数

  • expr1: STRING 式。
  • expr2: STRING 式。

返品

2 つの入力文字列間のセマンティック類似性を表す FLOAT 値。 出力スコアは相対的なものであり、ランク付けにのみに使用してください。 スコア 1 は、2 つのテキストが等しいことを意味します。

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 10;

  Databricks Inc.