ai_extract
函数
适用于: Databricks SQL Databricks Runtime
重要
此功能目前以公共预览版提供。
在预览版中:
- 基础语言模型可以处理多种语言,但这些函数针对英语进行了优化。
- 底层基础模型 API 存在速率限制。 请参阅基础模型 API 限制,以便更新这些限制。
- 由于速率限制,此函数旨在针对小于 100 行的小型数据集进行测试。 对于超过 100 行数据的用例,Databricks 建议使用
ai_query
和预配的吞吐量终结点。 请参阅 使用 ai_query进行 LLM 批量推理。
ai_extract()
函数允许你调用最先进的生成式 AI 模型,以使用 SQL 从给定文本中提取标签指定的实体。 此函数使用通过 Databricks 基础模型 API 提供的聊天模型服务终结点。
要求
重要
目前可能使用的基础模型根据 Apache 2.0 许可证、版权 © Apache Software Foundation 或 LLAMA 3.1 社区许可证 版权©元平台公司获得许可。保留所有权利。 客户需负责确保遵守适用的模型许可条款。
Databricks 建议查看这些许可证,以确保遵守任何适用的条款。 如果模型在未来根据 Databricks 的内部基准表现更好,Databricks 可能会更改模型(以及本页中提供的适用许可证列表)。
目前, Meta-Llama-3.1-70B-Instruct 是支持这些 AI 函数的基础模型。
- 此函数仅适用于使用基础模型 API 的 AI 函数支持的区域中的工作区。
- 此函数在 Azure Databricks SQL Classic 上不可用。
- 查看 Databricks SQL 定价页。
注意
在 Databricks Runtime 15.1 及更高版本中,Databricks 笔记本(包括作为任务在 Databricks 工作流中运行的笔记本)支持此函数。
语法
ai_extract(content, labels)
参数
content
:一个STRING
表达式。labels
:ARRAY<STRING>
文本。 每个元素都是一个要提取的实体类型。
返回
STRUCT
,其中每个字段对应于 labels
中指定的实体类型。 每个字段包含一个表示提取实体的字符串。 如果找到任何实体类型的多个候选项,则仅返回一个候选项。
如果 content
为 NULL
,则结果为 NULL
。
示例
> SELECT ai_extract(
'John Doe lives in New York and works for Acme Corp.',
array('person', 'location', 'organization')
);
{"person": "John Doe", "location": "New York", "organization": "Acme Corp."}
> SELECT ai_extract(
'Send an email to jane.doe@example.com about the meeting at 10am.',
array('email', 'time')
);
{"email": "jane.doe@example.com", "time": "10am"}