透過 Azure Databricks 提供的模型服務
本文說明 Mosaic AI 模型服務,包括其優點和限制。
什麼是馬賽克 AI 模型服務?
馬賽克 AI 模型服務提供統一的介面,以部署、控管和查詢 AI 模型,以進行即時和批次推斷。 您提供的每個模型都可作為 REST API,您可將其整合到網頁或用戶端應用程式中。
模型服務可為部署模型提供高可用性和低延遲的服務。 服務會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 此功能使用無伺服器計算。 如需詳細資料,請參閱模型服務定價頁面。
模型服務支援服務:
- 自訂模型。 這些是以 MLflow 格式封裝的自訂 Python 模型。 這些模型可以在 Unity Catalog 或工作區模型登錄中註冊。 範例包括 Scikit-learn、XGBoost、PyTorch 和 Hugging Face 轉換器模型。
- 支援代理程式服務作為自訂模型。 請參閱部署適用於生成式 AI 應用程式的代理程式
- 基礎模型 API 所提供的最先進的開放式模型。 這些模型是精心策劃的基礎模型架構,可支援最佳化的推斷。 基本模型,例如 Meta-Llama-3.1-70B-指示、GTE-Large 和 Mistral-7B,可立即搭配按令牌付費定價使用,以及需要效能保證和微調模型變體的工作負載,可以使用布建的輸送量來部署。
- Databricks 建議搭配模型服務使用
ai_query
以進行批次推斷。 如需快速實驗,ai_query
可以搭配 每個令牌付費端點使用。 當您準備好在大型或實際執行數據上執行批次推斷時,Databricks 建議使用布建的輸送量端點來提升效能。 如需如何建立布建的輸送量端點,請參閱 布建的輸送量基礎模型 API 。- 請參閱 使用ai_query執行批次推斷。
- 若要開始使用 Unity 目錄數據表上的 LLM 批次推斷,請參閱使用基礎模型 API 布建輸送量進行批次推斷中的筆記本範例。
- Databricks 建議搭配模型服務使用
- 外部模型。 這些是託管在 Databricks 外部的生成式 AI 模型。 範例包括 OpenAI 的 GPT-4、Anthropic 的 Claude 等模型。 服務於外部模型的端點可以集中管理,客戶可以為其建立速率限制與存取控制。
注意
您可以使用 AI 遊樂場與支援的大型語言模型互動。 AI 遊樂場是像聊天一樣的環境,您可以在其中測試、提示和比較 LLM。 這項功能可在 Azure Databricks 工作區中使用。
模型服務為 CRUD 和查詢工作提供整合 REST API 和 MLflow 部署 API。 此外,它還會提供單一 UI 來管理您的所有模型及其各自的服務端點。 您也可以使用 AI 函式直接從 SQL 存取模型,以便輕鬆地整合到分析工作流程中。
如需如何在 Azure Databricks 上提供自訂模型的簡介教學課程,請參閱教學課程:部署和查詢自訂模型。
如需如何在 Databricks 上查詢基礎模型的入門教學課程,請參閱開始在 Databricks 上查詢 LLM。
為什麼要使用模型服務?
- 部署和查詢任何模型:模型服務提供整合介面,讓您可以在一個位置管理所有模型,並使用單一 API 進行查詢,而不論它們是託管於 Databricks 還是外部。 此方法可簡化跨各種雲端和供應商在生產環境中實驗、自訂和部署模型的程序。
- 使用私人資料安全地自訂模型:模型服務建置於資料智慧平台,可透過與 Databricks 特徵存放區和 Mosaic AI 向量搜尋的原生整合,簡化特徵整合及內嵌至模型。 為了更進一步提高正確性和內容相關性,模型可以使用專屬資料進行微調,並輕鬆部署在模型服務上。
- 控管和監視模型:服務 UI 可讓您集中管理一個位置的所有模型端點,包括外部託管的端點。 您可以管理權限、追蹤和設定使用限制,以及監視所有類型的模型品質。 這可讓您將 SaaS 的存取權大眾化,並在組織內開啟 LLM,同時確保適當的護欄已就緒。
- 使用最佳化的推斷和快速調整來降低成本:Databricks 已實作一系列最佳化,可確保您取得大型模型的最佳輸送量和延遲。 端點會自動擴大或縮減,以滿足需求變更,節省基礎結構成本,同時最佳化延遲效能。 監視服務成本的模型。
注意
對於延遲敏感或涉及每秒大量查詢的工作負載,Databricks 建議在 提供端點的自定義模型上使用路由優化 。 請連絡 Databricks 帳戶小組,以確保您的工作區已啟用高延展性。
- 將可靠性和安全性帶入模型服務:模型服務是專為高可用性、低延遲生產使用而設計,且每秒可支援超過 25,000 個查詢,額外負荷延遲小於 50 ms。 服務工作負載會受到多層安全性的保護,因此即使是最敏感的工作,也能確保安全且可靠的環境。
注意
模型服務不會提供現有模型映像的安全性修補程式,因為生產部署存在不穩定風險。 從新模型版本建立的新模型映像會包含最新的修補程式。 如需詳細資訊,請連絡 Databricks 客戶團隊。
需求
- 已註冊模型位於 Unity Catalog 或工作區模型登錄。
- 已註冊模型的權限,如服務端點 ACL 中所述。
- MLflow 1.29 或更高版本。
- 如果您使用 Azure Private Link 來遵守工作區上設定的網路相關輸入規則,則只有使用布建輸送量的模型或提供自定義模型的端點,才支援 Azure Private Link。 請參閱從無伺服器計算設定私人連線能力。
為您的工作區啟用模型服務
在工作區中啟用模型服務不需要任何其他步驟。
限制和區域可用性
Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 請參閱模型服務限制和區域。 如果您有這些限制或不支援區域中端點的意見反應,請連絡您的 Databricks 客戶團隊。
模型服務中的資料保護
Databricks 非常重視資料安全性。 Databricks 了解您使用 Mosaic AI 模型服務分析的資料的重要性,並實作下列安全性控制項來保護您的資料。
- 模型服務的每個客戶要求都會邏輯隔離、驗證和授權。
- Mosaic AI 模型服務會加密待用資料 (AES-256) 和傳輸中資料 (TLS 1.2+)。
針對所有付費帳戶,Mosaic AI 模型服務不會使用已提交至服務的使用者輸入,或用於訓練任何模型或改善任何 Databricks 服務的服務輸出。
針對 Databricks 基礎模型 API,作為提供服務的一部分,Databricks 可能會暫時處理和儲存輸入和輸出,以防止、偵測和減輕濫用或有害用途。 您的輸入和輸出會與其他客戶隔離,在與您工作區相同的區域中儲存最多三十 (30) 天,且只能用於偵測及回應安全性或濫用問題。 基礎模型 API 是 Databricks 指定的服務,這表示它會遵守 Databricks Geos 實作的數據落地界限。