共用方式為


透過 Azure Databricks 提供的模型服務

本文說明 Mosaic AI 模型服務,包括其優點和限制。

什麼是馬賽克 AI 模型服務?

馬賽克 AI 模型服務提供統一的介面,以部署、控管和查詢 AI 模型,以進行即時和批次推斷。 您提供的每個模型都可作為 REST API,您可將其整合到網頁或用戶端應用程式中。

模型服務可為部署模型提供高可用性和低延遲的服務。 服務會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 此功能使用無伺服器計算。 如需詳細資料,請參閱模型服務定價頁面

模型服務支援服務:

  • 自訂模型。 這些是以 MLflow 格式封裝的自訂 Python 模型。 這些模型可以在 Unity Catalog 或工作區模型登錄中註冊。 範例包括 Scikit-learn、XGBoost、PyTorch 和 Hugging Face 轉換器模型。
  • 基礎模型 API 所提供的最先進的開放式模型。 這些模型是精心策劃的基礎模型架構,可支援最佳化的推斷。 基本模型,例如 Meta-Llama-3.1-70B-指示、GTE-Large 和 Mistral-7B,可立即搭配按令牌付費定價使用,以及需要效能保證和微調模型變體的工作負載,可以使用布建的輸送量來部署
    • Databricks 建議搭配模型服務使用 ai_query 以進行批次推斷。 如需快速實驗, ai_query 可以搭配 每個令牌付費端點使用。 當您準備好在大型或實際執行數據上執行批次推斷時,Databricks 建議使用布建的輸送量端點來提升效能。 如需如何建立布建的輸送量端點,請參閱 布建的輸送量基礎模型 API
      • 請參閱 使用ai_query執行批次推斷。
      • 若要開始使用 Unity 目錄數據表上的 LLM 批次推斷,請參閱使用基礎模型 API 布建輸送量進行批次推斷中的筆記本範例。
  • 外部模型。 這些是託管在 Databricks 外部的生成式 AI 模型。 範例包括 OpenAI 的 GPT-4、Anthropic 的 Claude 等模型。 服務於外部模型的端點可以集中管理,客戶可以為其建立速率限制與存取控制。

注意

您可以使用 AI 遊樂場與支援的大型語言模型互動。 AI 遊樂場是像聊天一樣的環境,您可以在其中測試、提示和比較 LLM。 這項功能可在 Azure Databricks 工作區中使用。

模型服務為 CRUD 和查詢工作提供整合 REST API 和 MLflow 部署 API。 此外,它還會提供單一 UI 來管理您的所有模型及其各自的服務端點。 您也可以使用 AI 函式直接從 SQL 存取模型,以便輕鬆地整合到分析工作流程中。

如需如何在 Azure Databricks 上提供自訂模型的簡介教學課程,請參閱教學課程:部署和查詢自訂模型

如需如何在 Databricks 上查詢基礎模型的入門教學課程,請參閱開始在 Databricks 上查詢 LLM

為什麼要使用模型服務?

  • 部署和查詢任何模型:模型服務提供整合介面,讓您可以在一個位置管理所有模型,並使用單一 API 進行查詢,而不論它們是託管於 Databricks 還是外部。 此方法可簡化跨各種雲端和供應商在生產環境中實驗、自訂和部署模型的程序。
  • 使用私人資料安全地自訂模型:模型服務建置於資料智慧平台,可透過與 Databricks 特徵存放區Mosaic AI 向量搜尋的原生整合,簡化特徵整合及內嵌至模型。 為了更進一步提高正確性和內容相關性,模型可以使用專屬資料進行微調,並輕鬆部署在模型服務上。
  • 控管和監視模型:服務 UI 可讓您集中管理一個位置的所有模型端點,包括外部託管的端點。 您可以管理權限、追蹤和設定使用限制,以及監視所有類型的模型品質。 這可讓您將 SaaS 的存取權大眾化,並在組織內開啟 LLM,同時確保適當的護欄已就緒。
  • 使用最佳化的推斷和快速調整來降低成本:Databricks 已實作一系列最佳化,可確保您取得大型模型的最佳輸送量和延遲。 端點會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 監視服務成本的模型。

注意

對於延遲敏感或涉及每秒大量查詢的工作負載,Databricks 建議在 提供端點的自定義模型上使用路由優化 。 請連絡 Databricks 帳戶小組,以確保您的工作區已啟用高延展性。

  • 將可靠性和安全性帶入模型服務:模型服務是專為高可用性、低延遲生產使用而設計,且每秒可支援超過 25,000 個查詢,額外負荷延遲小於 50 ms。 服務工作負載會受到多層安全性的保護,因此即使是最敏感的工作,也能確保安全且可靠的環境。

注意

模型服務不會提供現有模型映像的安全性修補程式,因為生產部署存在不穩定風險。 從新模型版本建立的新模型映像會包含最新的修補程式。 如需詳細資訊,請連絡 Databricks 客戶團隊。

需求

為您的工作區啟用模型服務

在工作區中啟用模型服務不需要任何其他步驟。

限制和區域可用性

Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 請參閱模型服務限制和區域。 如果您有這些限制或不支援區域中端點的意見反應,請連絡您的 Databricks 客戶團隊。

模型服務中的資料保護

Databricks 非常重視資料安全性。 Databricks 了解您使用 Mosaic AI 模型服務分析的資料的重要性,並實作下列安全性控制項來保護您的資料。

  • 模型服務的每個客戶要求都會邏輯隔離、驗證和授權。
  • Mosaic AI 模型服務會加密待用資料 (AES-256) 和傳輸中資料 (TLS 1.2+)。

針對所有付費帳戶,Mosaic AI 模型服務不會使用已提交至服務的使用者輸入,或用於訓練任何模型或改善任何 Databricks 服務的服務輸出。

針對 Databricks 基礎模型 API,作為提供服務的一部分,Databricks 可能會暫時處理和儲存輸入和輸出,以防止、偵測和減輕濫用或有害用途。 您的輸入和輸出會與其他客戶隔離,在與您工作區相同的區域中儲存最多三十 (30) 天,且只能用於偵測及回應安全性或濫用問題。 基礎模型 API 是 Databricks 指定的服務,這表示它會遵守 Databricks Geos作的數據落地界限。

其他資源