你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
创建模型包(预览版)
模型包是 Azure 机器学习中的一项功能,可用于收集将机器学习模型部署到服务平台所需的所有依赖项。 在部署模型之前创建包可提供稳健可靠的部署以及更高效的 MLOps 工作流。 包可以跨工作区移动,甚至可以移动到 Azure 机器学习之外。
重要
此功能目前处于公开预览状态。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。
有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
本文将介绍如何打包用于部署的模型。
先决条件
在按照本文中的步骤操作之前,请确保满足以下先决条件:
Azure 订阅。 如果没有 Azure 订阅,请在开始操作前先创建一个免费帐户。 试用免费版或付费版 Azure 机器学习。
一个 Azure 机器学习工作区。 如果没有,请使用如何管理工作区一文中的步骤创建一个。
Azure 基于角色的访问控制 (Azure RBAC) 用于授予对 Azure 机器学习中的操作的访问权限。 若要执行本文中的步骤,必须为用户帐户分配 Azure 机器学习工作区的所有者或参与者角色,或者分配一个自定义角色。 有关详细信息,请参阅管理对 Azure 机器学习工作区的访问。
要打包的模型。 此示例使用工作区中注册的 MLflow 模型。
注意
Azure AI 模型目录中的模型(包括大型语言模型)不支持模型打包。 Azure AI 模型目录中的模型针对 Azure AI 部署目标的推理进行了优化,不适合打包。
关于此示例
在此示例中,你将了解如何在 Azure 机器学习中打包模型。
克隆存储库
本文中的示例基于 azureml-examples 存储库中包含的代码示例。 要在无需复制/粘贴 YAML 和其他文件的情况下在本地运行命令,请先克隆存储库,然后将目录更改为以下文件夹:
git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli
本部分使用文件夹 endpoints/online/deploy-packages/custom-model 中的示例。
连接到工作区
连接到将在其中完成工作的 Azure 机器学习工作区。
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
打包模型
可以显式创建模型包,以允许控制打包操作的完成方式。 在以下情况下使用此工作流:
- 你想要自定义模型包的创建方式。
- 你想要在 Azure 机器学习外部部署模型包。
- 你想要在 MLOps 工作流中使用模型包。
可以通过指定以下内容来创建模型包:
- 要打包的模型:每个模型包只能包含一个模型。 Azure 机器学习不支持在同一模型包下打包多个模型。
- 基础环境:环境用于指示基础映像以及模型所需的 Python 包依赖项。 对于 MLflow 模型,Azure 机器学习会自动生成基础环境。 对于自定义模型,需要指定它。
- 服务技术:用于运行模型的推理堆栈。
注册模型
模型包要求在工作区或 Azure 机器学习注册表中注册模型。 在本例中,你已在存储库中拥有模型的本地副本,因此只需要将模型发布到工作区中的注册表。 如果打算部署的模型已注册,则可以跳过此部分。
MODEL_NAME='sklearn-regression'
MODEL_PATH='model'
az ml model create --name $MODEL_NAME --path $MODEL_PATH --type custom_model
创建基础环境
基础环境用于指示基础映像以及模型 Python 包依赖项。 我们的模型需要使用以下包,如 conda 文件中所示:
conda.yaml
name: model-env
channels:
- conda-forge
dependencies:
- python=3.9
- numpy=1.23.5
- pip=23.0.1
- scikit-learn=1.2.2
- scipy=1.10.1
- xgboost==1.3.3
注意
基础环境与用于将模型部署到联机和批量终结点的环境有何不同? 将模型部署到终结点时,你的环境需要包含模型的依赖项以及托管联机终结点正常工作所需的 Python 包。 这会将手动过程引入部署,其中,必须将模型的要求与服务平台的要求相结合。 另一方面,使用模型包可以消除这种摩擦,因为推理服务器所需的包将在打包时自动注入到模型包中。
按如下所示创建环境:
创建环境定义:
sklearn-regression-env.yml
$schema: https://azuremlschemas.azureedge.net/latest/environment.schema.json
name: sklearn-regression-env
image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu22.04
conda_file: conda.yaml
description: An environment for models built with XGBoost and Scikit-learn.
然后创建环境:
az ml environment create -f environment/sklearn-regression-env.yml
创建包规格
可以使用 Azure CLI 或适用于 Python 的 Azure 机器学习 SDK 在 Azure 机器学习中创建模型包。 自定义包规范支持以下属性:
属性 | 类型 | 描述 | 必须 |
---|---|---|---|
target_environment |
str |
要创建的包的名称。 包操作的结果是 Azure 机器学习中的环境。 | 是 |
base_environment_source |
object |
用于创建指定模型依赖项的包的基础映像。 | 是的,除非模型为 MLflow。 |
base_environment_source.type |
str |
基础映像的类型。 仅支持使用其他环境作为基础映像 (type: environment_asset )。 |
|
base_environment_source.resource_id |
str |
要使用的基础环境的资源 ID。 使用格式 azureml:<name>:<version> 或长资源 ID。 |
|
inferencing_server |
object |
要使用的推理服务器。 | 是 |
inferencing_server.type |
azureml_online custom |
对 Azure 机器学习推理服务器使用 azureml_online ,或对自定义联机服务器(例如 TensorFlow 服务或 Torch Serve)使用 custom 。 |
是 |
inferencing_server.code_configuration |
object |
使用推理例程的代码配置。 它应包含至少一个具有 init 和 run 方法的 Python 文件。 |
是的,除非模型为 MLflow。 |
model_configuration |
object |
模型配置。 使用此属性可以控制模型在结果映像中的打包方式。 | 否 |
model_configuration.mode |
download copy |
指示如何将模型放置在包中。 可能的值为 download (默认)或 copy 。 若要在部署时从模型注册表下载模型,请使用 download 。 此选项会创建更小的 docker 映像,因为模型不包含在其中。 若要断开映像与 Azure 机器学习的连接,请使用 copy 。 模型将在打包时复制到 docker 映像内部。 启用了专用链接的工作区不支持 copy 。 |
否 |
按如下所示创建包规格:
package-moe.yml
$schema: http://azureml/sdk-2-0/ModelVersionPackage.json base_environment_source: type: environment_asset resource_id: azureml:sklearn-regression-env:1 target_environment: sklearn-regression-online-pkg inferencing_server: type: azureml_online code_configuration: code: src scoring_script: score.py
启动模型包操作:
包操作的结果是环境。
将在专用 Python 源中具有依赖项的模型打包
模型包可以解析专用源中可用的 Python 依赖项。 若要使用此功能,需要创建从工作区到源的连接并指定 PAT 令牌配置。 以下 Python 代码显示如何配置运行包操作的工作区。
from azure.ai.ml.entities import WorkspaceConnection
from azure.ai.ml.entities import PatTokenConfiguration
# fetching secrets from env var to secure access, these secrets can be set outside or source code
git_pat = os.environ["GIT_PAT"]
credentials = PatTokenConfiguration(pat=git_pat)
ws_connection = WorkspaceConnection(
name="<workspace_connection_name>",
target="<git_url>",
type="git",
credentials=credentials,
)
ml_client.connections.create_or_update(ws_connection)
创建连接后,按照打包模型部分中的说明生成模型包。 在以下示例中,程序包的基础环境使用 Python 依赖项 bar
的专用源,如以下 conda 文件中所指定:
conda.yml
name: foo
channels:
- defaults
dependencies:
- python
- pip
- pip:
- --extra-index-url <python_feed_url>
- bar
如果使用的是 MLflow 模型,模型依赖性会在模型本身内部指示,因此不需要基础环境。 相反,请在记录模型时指定专用源依赖项,如使用自定义签名、环境或示例记录模型中所述。
打包注册表中托管的模型
模型包提供了在部署之前收集依赖项的便捷方法。 但是,当模型托管在注册表中时,部署目标通常是另一个工作区。 在此设置中创建包时,请使用 target_environment
属性指定要创建模型包的完整位置,而不仅仅是其名称。
以下代码从注册表创建 t5-base
模型的包:
连接到模型所在的注册表以及需要在其中创建模型包的工作区:
获取对要打包的模型的引用。 在本例中,我们将从
azureml
注册表中打包模型t5-base
。创建包规格。 由于要打包的模型是 MLflow,因此基础环境和评分脚本是可选的。
启动创建模型包的操作:
现在,该包已在目标工作区中创建并准备好部署。
用于在 Azure 机器学习外部部署的包模型
如果需要,可以将模型包部署在 Azure 机器学习之外。 为了保证可移植性,只需确保包中的模型配置将模式设置为 copy
,以便将模型本身复制到生成的 docker 映像中,而不是从模型注册表中引用 Azure 机器学习。
以下代码演示如何在模型包中配置 copy
:
package-external.yml
$schema: http://azureml/sdk-2-0/ModelVersionPackage.json
base_environment_source:
type: environment_asset
resource_id: azureml:sklearn-regression-env:1
target_environment: sklearn-regression-docker-pkg
inferencing_server:
type: azureml_online
code_configuration:
code: src
scoring_script: score.py
model_configuration:
mode: copy