共用方式為


使用 Azure Databricks AI Functions 對數據套用 AI

重要

這項功能處於公開預覽狀態

本文說明 Azure Databricks 的人工智慧函式和支援的函式。

什麼是 AI 函式?

AI Functions 是內建的函式,可讓您在儲存在 Databricks 上的數據上套用 AI,例如文字翻譯或情感分析。 它們可以從 Databricks 的任何位置執行,包括 Databricks SQL、筆記本、Delta 實時數據表和工作流程。

AI Functions 很容易使用、快速且可調整。 分析師可以使用它們將數據智慧套用至其專屬數據,而數據科學家和機器學習工程師則可使用這些數據來建置生產等級批次管線。

AI Functions 提供一般用途和工作特定的函式。

  • ai_query 是一般用途的函式,可讓您在數據上套用任何類型的 AI 模型。 請參閱 一般用途函式:ai_query
  • 工作特定函式為摘要文字和翻譯等工作提供高階 AI 功能。 這些特定任務功能由 Databricks 裝載和管理的最先進的生成式人工智慧模型所提供。 如需支援的函式和模型,請參閱 工作特定的 AI 函式

一般用途函式:ai_query

ai_query() 函式可讓您將任何 AI 模型套用至產生 AI 和傳統 ML 工作的數據,包括擷取資訊、摘要內容、識別詐騙和預測營收。

下表摘要說明支援的模型類型、相關聯的模型及其需求。

類型 支援的模型 需求
Databricks 託管的基礎模型
  • databricks-meta-llama-3-70b-instruct
  • databricks-meta-llama-3-8b-instruct
  • databricks-gte-large-en

這些模型可使用 基礎模型 API
不需要端點布建或設定。
微調的基礎模型 在馬賽克 AI 模型服務上部署的微調基礎模型 您必須 模型服務中建立布建的輸送量端點。 請參閱 使用自訂模型或微調的基礎模型進行批次推斷
Databricks 外部託管的基礎模型 使用 外部模型提供的模型。 請參閱 Databricks之外裝載的 Access 基礎模型。 您必須 建立一個外部模型服務端點
自定義傳統ML和 DL 模型 任何傳統的 ML 或 DL 模型,例如 scikit-learn、xgboost 或 PyTorch 您必須 建立提供端點服務的自定義模型

針對生產工作流程使用ai_query

若要進行大規模的批次推斷,ai_query 可以整合到 Databricks 工作流程和結構化串流工作負載中。 這可大規模進行生產等級處理。 如需詳細資訊,請參閱 「使用 AI 功能執行批次 LLM 推斷」一節

搭配基礎模型使用ai_query

下列範例示範如何使用 Databricks 所裝載的基礎模型來使用 ai_query。 如需語法詳細數據和參數,請參閱 ai_query 函式 函式。


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

搭配傳統ML模型使用ai_query

ai_query 支援傳統的 ML 模型,包括完全自定義的模型。 這些模型必須部署在模型服務端點上。 如需語法詳細數據和參數,請參閱 ai_query 函式 函式。

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

任務專用的 AI 功能

工作特定函式的範圍適用於特定工作,因此您可以將例行工作自動化,例如簡單的摘要和快速翻譯。 這些函式會使用由 Databricks 維護的最先進的生成式 AI 模型,而且不需要進行任何自訂。

如需範例,請參閱 使用 AI Functions 分析客戶評論

以下是任務特定函式所使用的模型:

  • Meta Llama 3.1 8B
  • Meta Llama 3.3 70B
  • GTE 大型(英文版)

下表列出支援的函式及其每個執行的工作。

功能 說明
ai_analyze_sentiment 使用最先進的產生 AI 模型,對輸入文字執行情感分析。
ai_classify 根據您提供的標籤,使用最先進的生成式 AI 模型對輸入文字進行分類。
ai_extract 使用最先進的產生 AI 模型,從文字擷取標籤所指定的實體。
ai_fix_grammar 使用最先進的產生 AI 模型,更正文字中的文法錯誤。
ai_gen 回答使用者所提供的提示,使用最先進的生成式 AI 模型。
ai_mask 使用尖端的生成式 AI 模型來遮蓋文字中指定的實體。
ai_similarity 使用最先進的產生 AI 模型,比較兩個字串並計算語意相似度分數。
ai_summarize 利用 SQL 和最先進的生成 AI 模型來產生摘要。
ai_translate 使用最先進的產生 AI 模型,將文字翻譯成指定的目標語言。
ai_forecast 將數據預測到指定的地平線。 此數據表值函式的設計目的是將時間序列數據推斷到未來。
vector_search 使用最先進的生成式 AI 模型查詢和搜尋 馬賽克 AI 向量搜尋 索引。

在現有的 Python 工作流程中使用 AI 函式

AI Functions 可以輕鬆地整合到現有的 Python 工作流程中。

下列會將 ai_query 的輸出寫入至輸出資料表:

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

下列將摘要文字寫入表格:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

在生產工作流程中使用 AI 功能

若要進行大規模的批次推斷,ai_query 可以整合到 Delta Live Tables 或工作流程中。 這可以進行大規模的生產級處理。 如需詳細資訊,請參閱 使用人工智慧功能執行批次 LLM 推斷

監控 AI 功能進度

若要瞭解有多少推斷已完成或失敗,並針對效能進行疑難解答,您可以使用查詢配置檔功能來監視 AI 函式的進度。

從工作區中的 [SQL 編輯器查詢] 視窗執行下列步驟:

  1. 點擊查詢視窗底部的[輸出],然後查看[效能]。
  2. 選取連結,SELECT 識別碼,ai_quer...。右側會顯示效能視窗。
  3. 按兩下 [查看查詢設定檔 以檢視效能詳細數據。
  4. 點擊 AI 查詢 以查看該特定查詢的指標,包括完成和失敗的推理次數,以及請求完成的總時間。

監視 AI 功能進度