使用馬賽克 AI 模型服務部署模型

發行項
03/11/2025

本文說明馬賽克 AI 模型服務、用於部署 AI 和 ML 模型的 Databricks 解決方案，以進行即時服務和批次推斷。

什麼是 Mosaic AI 模型服務？

馬賽克 AI 模型服務提供統一的介面，以部署、控管和查詢 AI 模型，以進行即時和批次推斷。您提供的每個模型都可作為 REST API，您可將其整合到網頁或用戶端應用程式中。

模型服務可為部署模型提供高可用性和低延遲的服務。服務會自動擴大或縮減，以滿足需求變更，節省基礎結構成本，同時最佳化延遲效能。此功能使用無伺服器計算。如需詳細資料，請參閱模型服務定價頁面。

模型服務提供適用於 CRUD 和查詢工作的統一 REST API 和 MLflow 部署 API。此外，它還會提供單一 UI 來管理您的所有模型及其各自的服務端點。您也可以使用 AI 函式直接從 SQL 存取模型，以便輕鬆地整合到分析工作流程中。

請參閱下列指南以開始使用：

如需如何在 Azure Databricks 上提供自訂模型的簡介教學課程，請參閱教學課程：部署和查詢自訂模型。
如需如何在 Databricks 上查詢基礎模型的入門教學課程，請參閱開始使用在 Databricks 上查詢 LLM。
如需執行批次推斷，請參閱部署批次推斷和預測模型。

您可以部署的模型

模型服務支援下列模型類型的即時和批次推斷：

自訂模型。這些是以 MLflow 格式封裝的 Python 模型。它們可以在 Unity Catalog 或工作區模型註冊表中註冊。範例包括 Scikit-learn、XGBoost、PyTorch 和 Hugging Face 轉換器模型。
- 支援代理程式服務作為自訂模型。請參閱部署適用於生成式 AI 應用程式的代理程式
基礎模型。
- Databricks 裝載的基礎模型 如 Meta Llama。這些模型可使用基礎模型 API。這些模型是精心策劃的基礎模型架構，可支援最佳化的推斷。基本模型，例如 Meta-Llama-3.3-70B-Instruct、GTE-Large 和 Mistral-7B，可立即搭配 按令牌付費 定價使用，而需要效能保證和微調模型變體的工作負載可以使用 預留輸送量 來部署。
- 裝載於 Databricks 外部的基礎模型，例如來自 OpenAI 的 GPT-4。這些模型可以使用外部模型來存取。提供這些模型的端點可以透過 Azure Databricks 進行集中管理，因此您可以簡化組織內各種 LLM 提供者的使用和管理，例如 OpenAI 和 Anthropic。

注意

您可以使用 AI 遊樂場與支援的大型語言模型互動。 AI 遊樂場是一個類似聊天介面的環境，在這裡您可以測試、提示和比較語言模型 (LLM)。這項功能可在 Azure Databricks 工作區中使用。

為什麼要使用模型服務？

部署和查詢任何模型：模型服務提供整合介面，讓您可以在一個位置管理所有模型，並使用單一 API 進行查詢，而不論它們是託管於 Databricks 還是外部。此方法可簡化在生產環境中跨各種雲端和提供者實驗、自定義和部署模型的過程。
使用私人資料安全地自訂模型：模型服務建置於資料智慧平台，可透過與 Databricks 特徵存放區和 Mosaic AI 向量搜尋的原生整合，簡化特徵整合及內嵌至模型。為了更進一步提高正確性和內容相關性，模型可以使用專屬資料進行微調，並輕鬆部署在模型服務上。
控管和監視模型：服務 UI 可讓您集中管理一個位置的所有模型端點，包括外部託管的端點。您可以使用 AI Gateway來管理許可權、追蹤和設定使用限制，以及監視所有類型的模型品質。這使您能夠在組織內普及對 SaaS 和開放型 LLM 的存取，同時確保適當的保障措施已就緒。
使用優化推斷和快速調整來降低成本：Databricks 已實作一系列優化，以確保您取得大型模型的最佳輸送量和延遲。端點會自動擴大或縮減，以滿足需求變更，節省基礎結構成本，同時最佳化延遲效能。監控模型服務成本。

注意

對於延遲敏感或涉及每秒大量查詢的工作負載，Databricks 建議在提供端點的自定義模型上使用路由優化。請聯絡 Databricks 帳戶團隊，確認您的工作區已啟用高擴展性。

將可靠性和安全性帶入模型服務：模型服務是專為高可用性、低延遲生產使用而設計，且每秒可支援超過 25,000 個查詢，額外負荷延遲小於 50 ms。服務工作負載會受到多層安全性的保護，因此即使是最敏感的工作，也能確保安全且可靠的環境。

注意

模型服務不會為現有的模型映像提供安全性修補程式，因為這樣可能會導致生產部署不穩定的風險。從新版本模型建立的模型映像會包含最新的修補程式。如需詳細資訊，請連絡 Databricks 客戶團隊。

需求

Unity 目錄或工作區模型登錄中的已註冊模型。
註冊模型的權限，如服務端點存取控制清單（ACL）中所述。
- MLflow 1.29 或更高版本。
如果您使用 Azure Private Link 來遵守工作區上設定的網路相關入口規則，則只有為使用布建輸送量的模型服務的端點或用於自定義模型的端點才支援 Azure Private Link。請參閱從無伺服器運算配置私有連線。

為您的工作區啟用模型服務

在工作區中啟用模型服務不需要任何其他步驟。

限制和區域可用性

Mosaic AI 模型服務會強制執行預設限制，以確保可靠的效能。請參閱模型服務限制和區域。如果您對於這些限制或對不支援區域的端點有任何意見，請洽您的 Databricks 客戶團隊。

模型服務中的資料保護

Databricks 非常重視資料安全性。 Databricks 了解您使用 Mosaic AI 模型服務分析的資料的重要性，並實作下列安全性控制項來保護您的資料。

模型服務中的每個客戶請求都會被邏輯隔離、身份驗證和授權。
Mosaic AI 模型服務會加密待用資料 (AES-256) 和傳輸中資料 (TLS 1.2+)。

針對所有付費帳戶，Mosaic AI 模型服務不會使用提交至服務的使用者輸入或由服務生成的輸出來訓練任何模型或改善任何 Databricks 服務。

針對 Databricks 基礎模型 API，作為提供服務的一部分，Databricks 可能會暫時處理和儲存輸入和輸出，以防止、偵測和減輕濫用或有害用途。您的輸入和輸出會與其他客戶隔離，在與您工作區相同的區域中儲存最多三十 (30) 天，且只能用於偵測及回應安全性或濫用問題。基礎模型 API 是 Databricks 指定的服務，這表示它會遵守 Databricks Geos 實作的數據落地界限。

共用方式為