使用馬賽克 AI 模型服務部署模型
本文說明馬賽克 AI 模型服務、用於部署 AI 和 ML 模型的 Databricks 解決方案,以進行即時服務和批次推斷。
什麼是馬賽克 AI 模型服務?
馬賽克 AI 模型服務提供統一的介面,以部署、控管和查詢 AI 模型,以進行即時和批次推斷。 您提供的每個模型都可作為 REST API,您可將其整合到網頁或用戶端應用程式中。
模型服務可為部署模型提供高可用性和低延遲的服務。 服務會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 此功能使用無伺服器計算。 如需詳細資料,請參閱模型服務定價頁面。
模型服務提供適用於 CRUD 和查詢工作的統一 REST API 和 MLflow 部署 API。 此外,它還會提供單一 UI 來管理您的所有模型及其各自的服務端點。 您也可以使用 AI 函式直接從 SQL 存取模型,以便輕鬆地整合到分析工作流程中。
請參閱下列 get 快速入門指南:
- 如需如何在 Azure Databricks 上提供自訂模型的簡介教學課程,請參閱教學課程:部署和查詢自訂模型。
- 如需如何在 Databricks 上查詢基礎模型的入門教學課程,請參閱 Get 開始查詢 Databricks 上的 LLM。
- 如需執行批次推斷,請參閱 部署批次推斷和預測模型。
您可以部署的模型
模型服務支援下列模型類型的即時和批次推斷:
-
自訂模型。 這些是以 MLflow 格式封裝的自訂 Python 模型。 它們可以在 Unity Catalog 或工作區模型註冊表中註冊。 範例包括 Scikit-learn、XGBoost、PyTorch 和 Hugging Face 轉換器模型。
- 支援代理程式服務作為自訂模型。 請參閱部署適用於生成式 AI 應用程式的代理程式
-
Foundation 模型。
- Databricks 裝載的基礎模型 如 Meta Llama。 這些模型可使用 基礎模型 API。 這些模型是精心策劃的基礎模型架構,可支援最佳化的推斷。 基本模型,例如 Meta-Llama-3.3-70B-指示、GTE-Large 和 Mistral-7B,可立即搭配 按令牌付費 定價使用,以及需要效能保證和微調模型變體的工作負載,可以使用 布建的輸送量來部署。
- 從 OpenAI 裝載於 Databricks 外部 的 Foundation 模型,例如 GPT-4。 這些模型可以使用 外部模型來存取。 提供這些模型的端點可以從 Azure Databricks 集中控管,因此您可以簡化組織內各種 LLM providers的使用和管理,例如 OpenAI 和人類學。
注意
您可以使用 AI 遊樂場與支援的大型語言模型互動。 AI 遊樂場是一個類似聊天的環境,where 您可以測試、下達指令並比較大型語言模型(LLM)。 這項功能可在 Azure Databricks 工作區中使用。
為什麼要使用模型服務?
- 部署和查詢任何模型:模型服務提供整合介面,讓您可以在一個位置管理所有模型,並使用單一 API 進行查詢,而不論它們是託管於 Databricks 還是外部。 此方法簡化了在生產環境中以及各種雲端和 providers上實驗、自定義和部署模型的過程。
- 使用私人資料安全地自訂模型:模型服務建置於資料智慧平台,可透過與 Databricks 特徵存放區和 Mosaic AI 向量搜尋的原生整合,簡化特徵整合及內嵌至模型。 為了更進一步提高正確性和內容相關性,模型可以使用專屬資料進行微調,並輕鬆部署在模型服務上。
-
控管和監視模型:服務 UI 可讓您集中管理一個位置的所有模型端點,包括外部託管的端點。 您可以管理權限、追蹤
的使用限制,以及監視所有類型的模型品質 。 這可讓您將 SaaS 的存取權大眾化,並在組織內開啟 LLM,同時確保適當的護欄已就緒。 - 使用優化推斷和快速調整來降低成本:Databricks 已實作一系列優化,以確保您 get 大型模型的最佳輸送量和延遲。 端點會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 監視服務成本的模型。
注意
對於延遲敏感或涉及每秒大量查詢的工作負載,Databricks 建議在 提供端點的自定義模型上使用路由優化 。 請連絡 Databricks 帳戶小組,以確保您的工作區已啟用高延展性。
- 將可靠性和安全性帶入模型服務:模型服務是專為高可用性、低延遲生產使用而設計,且每秒可支援超過 25,000 個查詢,額外負荷延遲小於 50 ms。 服務工作負載會受到多層安全性的保護,因此即使是最敏感的工作,也能確保安全且可靠的環境。
注意
模型服務不會提供現有模型映像的安全性修補程式,因為生產部署存在不穩定風險。 從新模型版本建立的新模型映像會包含最新的修補程式。 如需詳細資訊,請連絡 Databricks 客戶團隊。
需求
- Unity Catalog 或 工作區模型登錄中的已註冊模型。
- 已註冊模型的權限,如服務端點 ACL 中所述。
- MLflow 1.29 或更高版本。
- 如果您使用 Azure Private Link 來遵守工作區上設定的網路相關輸入規則,則只有使用布建輸送量的模型或提供自定義模型的端點,才支援 Azure Private Link。 請參閱從無伺服器計算設定私人連線能力。
為您的工作區啟用模型服務
在工作區中啟用模型服務不需要任何其他步驟。
限制和區域可用性
Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 請參閱模型服務限制和區域。 如果您有這些限制或不支援區域中端點的意見反應,請連絡您的 Databricks 客戶團隊。
模型服務中的資料保護
Databricks 非常重視資料安全性。 Databricks 了解您使用 Mosaic AI 模型服務分析的資料的重要性,並實作下列安全性控制項來保護您的資料。
- 模型服務的每個客戶要求都會邏輯隔離、驗證和授權。
- Mosaic AI 模型服務會加密待用資料 (AES-256) 和傳輸中資料 (TLS 1.2+)。
針對所有付費帳戶,Mosaic AI 模型服務不會使用已提交至服務的使用者輸入,或用於訓練任何模型或改善任何 Databricks 服務的服務輸出。
針對 Databricks 基礎模型 API,作為提供服務的一部分,Databricks 可能會暫時處理和儲存輸入和輸出,以防止、偵測和減輕濫用或有害用途。 您的輸入和輸出會與其他客戶隔離,在與您工作區相同的區域中儲存最多三十 (30) 天,且只能用於偵測及回應安全性或濫用問題。 基礎模型 API 是 Databricks 指定的服務,這表示它會遵守 Databricks Geos 實作的數據落地界限。