使用 MLflow 進行 ML 生命週期管理
本文說明如何在 Databricks 中使用 MLflow 來進行機器學習生命週期管理。 它也包含介紹每個 MLflow 元件和內容連結的範例,說明這些元件如何裝載於 Azure Databricks 內。
Databricks 中的 ML 生命週期管理是由受控 MLflow 提供。 Azure Databricks 提供完全受控且裝載的 MLflow 版本,與企業安全性功能、高可用性和其他 Azure Databricks 工作區功能整合,例如實驗和執行管理和筆記本修訂擷取。
什麼是 MLflow?
MLflow 是一個開放原始碼平台,可供您管理端對端機器學習生命週期。 它有下列主要元件:
- 追蹤:可讓您追蹤實驗以便記錄並比較 parameters 與實驗結果。
- 模型:可讓您從各種 ML 連結庫管理和部署模型到各種模型服務與推斷平臺。
- 專案:可讓您以可重複使用、可重現的形式封裝 ML 程式代碼,以與其他數據科學家共用,或傳輸至生產環境。
- 模型登錄:可讓您集中化模型存放區來管理模型的完整生命週期階段轉換:從暫存到生產環境,以及版本設定和批注的功能。 Databricks 在 Unity Catalog中提供模型註冊的管理版本。
- 模型服務:可讓您將 MLflow 模型裝載為 REST 端點。 Databricks 提供統一介面來部署、控管及查詢您提供的 AI 模型。
MLflow 支援 Java、 Python、 R 和 REST API。
MLflow 數據會使用平臺管理的密鑰,由 Azure Databricks 加密。 不支援使用 客戶自控金鑰進行受控服務的 加密。
MLflow 追蹤
Azure Databricks 上的 MLflow 提供追蹤和保護機器學習和深度學習模型的定型執行整合式體驗。
模型生命週期管理
MLflow 模型登錄 是集中式模型存放庫和 UI 和 set API,可讓您管理 MLflow 模型的完整生命週期。 Databricks 提供 Unity Catalog中 MLflow 模型登錄的託管版本。 Unity Catalog 提供集中式模型治理、跨工作區存取、譜系和部署。 如需在 Unity Catalog中管理模型生命週期的詳細資訊,請參閱 在 Unity Catalog中管理模型生命週期。
如果您的工作區未針對 Unity Catalog啟用,您可以使用 工作區模型登錄。
模型登錄概念
-
模型:從實驗記錄的 MLflow 模型,或以其中一個模型類別
mlflow.<model-flavor>.log_model
的方法記錄的執行。 記錄模型之後,您可以將它註冊到模型登錄。 - 已註冊的模型:已向模型登錄註冊的 MLflow 模型。 已註冊的模型具有唯一的名稱、版本、模型譜系和其他元數據。
- 模型版本:已註冊模型的版本。 將新的模型新增至模型登錄時,會新增為第 1 版。 註冊至相同模型名稱的每個模型都會遞增版本號碼。
- 模型別名:別名是特定已註冊模型版本之具名的可變動參考。 別名的一般用法是指定要在模型定型工作流程中指定的環境中部署哪些模型版本,或撰寫以特定別名為目標的推斷工作負載。 例如,您可以將「詐騙偵測」已註冊模型的「冠軍」別名指派給應該為大部分生產流量提供服務的模型版本,然後撰寫以該別名為目標的推斷工作負載(也就是使用「冠軍」版本進行預測)。
- 模型階段 (僅限工作區模型登錄):模型版本可以指派一或多個階段。 MLflow 提供常見使用案例的預先定義階段: 無、 預備、 生產及 封存。 有了適當的許可權,您可以在階段之間轉換模型版本,也可以要求模型階段轉換。 Unity Catalog中不會使用模型版本階段。
- 描述:您可以標註模型的意圖,包括描述,以及小組有用的任何相關信息,例如演算法描述、採用的數據集或方法。
筆記本範例
如需一個說明如何使用模型註冊來管理模型生命週期的範例筆記本,請參閱以下內容:
模型部署
Mosaic AI 模型服務提供整合介面,可用來部署、控管及查詢 AI 模型。 您提供的每個模型都可作為 REST API,您可將其整合到網頁或用戶端應用程式中。
模型服務支援服務:
- 自訂模型。 這些是以 MLflow 格式封裝的自訂 Python 模型。 它們可以在 Unity Catalog 或工作區模型註冊中註冊。 範例包括 Scikit-learn、XGBoost、PyTorch 和 Hugging Face 轉換器模型。
- 基礎模型 API 所提供的最先進的開放式模型。 這些模型是精心策劃的基礎模型架構,可支援最佳化的推斷。 基本模型,例如 Meta-Llama-3.1-70B-指示、BGE-Large 和 Mistral-7B,可立即搭配按令牌付費定價使用,以及需要效能保證和微調模型變體的工作負載,可以使用布建的輸送量來部署。
- 外部模型。 這些是託管在 Databricks 外部的模型。 範例包括生成式 AI 模型,例如 OpenAI 的 GPT-4、Anthropic 的 Claude 以及其他。 服務外部模型的端點可以集中控管,客戶可以為其建立速率限制和訪問控制。
您也可以部署 MLflow 模型以進行離線推斷,請參閱 部署批次推斷的模型。