Dela via


Funktionen ai_similarity

Gäller för:markerad ja Databricks SQL markerad ja Databricks Runtime

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

I förhandsversionen:

  • Den underliggande språkmodellen kan hantera flera språk, men dessa funktioner är anpassade för engelska.
  • Det finns hastighetsbegränsning för de underliggande FOUNDATION Model-API:erna. Se gränser för Foundation Model API:er för att uppdatera gränserna.
  • På grund av hastighetsbegränsning är den här funktionen utformad för testning på små datauppsättningar som har mindre än 100 rader. För användningsfall med över 100 rader data rekommenderar Databricks att du använder ai_query och en etablerad dataflödesslutpunkt. Se Utföra batch-LLM-slutsatsdragning med hjälp av ai_query.

Funktionen ai_similarity() anropar en toppmodern generativ AI-modell från Databricks Foundation Model API:er för att jämföra två strängar och beräknar semantisk likhetspoäng med SQL.

Krav

Viktigt!

De underliggande modeller som kan användas just nu är licensierade under Apache 2.0-licensen, Copyright © Apache Software Foundation eller LLAMA 3.1 Community License Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

Databricks rekommenderar att du granskar dessa licenser för att säkerställa efterlevnad av tillämpliga villkor. Om modeller dyker upp i framtiden som presterar bättre enligt Databricks interna riktmärken kan Databricks ändra modellen (och listan över tillämpliga licenser som tillhandahålls på den här sidan).

För närvarande är GTE Large (engelska) den underliggande modellen som driver den här AI-funktionen.

Kommentar

I Databricks Runtime 15.1 och senare stöds den här funktionen i Databricks Notebooks, inklusive notebook-filer som körs som en uppgift i ett Databricks-arbetsflöde.

Syntax

ai_similarity(expr1, expr2)

Argument

  • expr1: Ett STRING uttryck.
  • expr2: Ett STRING uttryck.

Returer

Ett FLOAT värde som representerar den semantiska likheten mellan de två indatasträngarna. Utdatapoängen är relativ och bör endast användas för rangordning. Poängen 1 innebär att de två texterna är lika med.

Exempel

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 10;

  Databricks Inc.