Sdílet prostřednictvím


Funkce ai_similarity

Platí pro:zaškrtnutí označeného ano Databricks SQL zaškrtnutí označeného ano Databricks Runtime

Důležité

Tato funkce je ve verzi Public Preview.

Ve verzi Preview:

  • Základní jazykový model dokáže zpracovat několik jazyků, ale tyto funkce jsou vyladěné pro angličtinu.
  • Pro základní rozhraní API základního modelu existuje omezení rychlosti. Podívejte se na limity rozhraní API modelů základů k těmto limitům update.
  • Kvůli omezování rychlosti je tato funkce určená pro testování malých datových sad, které mají méně než 100 řádků. Pro případy použití s více než 100 řádky dat doporučuje Databricks používat ai_query a koncový bod zřízené propustnosti. Viz Provedení dávkového odvozování LLM pomocí ai_query.

Funkce ai_similarity() vyvolá špičkový model AI z rozhraní API modelu Databricks Foundation k porovnání dvou řetězců a vypočítá sémantické skóre podobnosti pomocí SQL.

Požadavky

Důležité

Základní modely, které lze v tuto chvíli použít, jsou licencované v rámci licence Apache 2.0, Copyright © The Apache Software Foundation nebo LLAMA 3.1 Community License Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.

Databricks doporučuje zkontrolovat tyto licence, abyste zajistili soulad s platnými podmínkami. Pokud se v budoucnu objeví modely, které fungují lépe podle interních srovnávacích testů Databricks, může Databricks změnit model (a také list příslušných licencí uvedených na této stránce).

GtE Large (angličtina) je v současné době základním modelem, který tuto funkci umělé inteligence využívá.

Poznámka:

V Databricks Runtime 15.1 a novějších je tato funkce podporovaná v poznámkových blocích Databricks, včetně poznámkových bloků, které se spouští jako úkol v pracovním postupu Databricks.

Syntaxe

ai_similarity(expr1, expr2)

Argumenty

  • expr1: Výraz STRING .
  • expr2: Výraz STRING .

Návraty

Hodnota FLOAT představující sémantickou podobnost mezi dvěma vstupními řetězci. Výstupní skóre je relativní a mělo by se použít pouze pro řazení. Skóre 1 znamená, že se oba texty rovnají.

Příklady

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 10;

  Databricks Inc.