`ai_similarity` 函数

项目
02/08/2025

适用于：勾选“是” Databricks SQL Databricks Runtime

重要

此功能目前以公共预览版提供。

在预览版中：

基础语言模型可以处理多种语言，但这些函数针对英语进行了优化。
底层基础模型 API 存在速率限制。请参阅基础模型 API 限制，以便更新这些限制。
由于速率限制，此函数旨在针对小于 100 行的小型数据集进行测试。对于超过 100 行数据的用例，Databricks 建议使用 ai_query 和预配的吞吐量终结点。请参阅使用 ai_query 执行批量 LLM 推理。

ai_similarity() 函数从 Databricks 基础模型 API 调用最先进的生成式 AI 模型，以比较两个字符串并使用 SQL 计算语义相似性分数。

要求

重要

Databricks 建议查看这些许可证，以确保遵守任何适用的条款。如果模型在未来根据 Databricks 的内部基准表现更好，Databricks 可能会更改模型（以及本页中提供的适用许可证列表）。

目前， GTE Large（英语） 是支持此 AI 函数的基础模型。

此函数仅适用于使用基础模型 API 的 AI 函数支持的区域中的工作区。
此函数在 Azure Databricks SQL Classic 上不可用。
查看 Databricks SQL 定价页。

注意

在 Databricks Runtime 15.1 及更高版本中，Databricks 笔记本（包括作为任务在 Databricks 工作流中运行的笔记本）支持此函数。

语法

ai_similarity(expr1, expr2)

参数

expr1：一个 STRING 表达式。
expr2：一个 STRING 表达式。

一个 FLOAT 值，表示两个输入字符串之间的语义相似性。输出分数是相对的，只应用于排名。分数为 1 表示两个文本相等。

示例

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 10;

  Databricks Inc.

通过

`ai_similarity` 函数

要求

语法

参数

返回

示例

反馈

其他资源

通过

ai_similarity 函数

要求

语法

参数

返回

示例

反馈

其他资源

`ai_similarity` 函数