了解 Python SDK
重要
目前,Python SDK 有两个版本:版本 1 (v1) 和版本 2 (v2)。 对于任何新项目,都应使用 v2,因此本单元中的内容仅涵盖 v2。 详细了解如何在 v1 和 v2 之间做出决定。
数据科学家可以使用 Azure 机器学习来训练、跟踪和管理机器学习模型。 作为数据科学家,你主要使用 Azure 机器学习工作区中的资产来处理机器学习工作负载。
由于大多数数据科学家都熟悉 Python,Azure 机器学习提供了一个软件开发工具包 (SDK),以便你可以使用 Python 与工作区进行交互。
适用于 Azure 机器学习的 Python SDK 是数据科学家的理想工具,可在任何 Python 环境中使用。 无论是否通常使用 Jupyter 笔记本、Visual Studio Code,都可以安装 Python SDK 并连接到工作区。
安装 Python SDK
若要在 Python 环境中安装 Python SDK,需要 Python 3.7 或更高版本。 你可以使用 pip
安装包:
pip install azure-ai-ml
注意
如果使用 Azure 机器学习工作室中的笔记本,那么在使用 Python 3.10 或更高版本时,你已安装新的 Python SDK。 可以将 Python SDK v2 与早期版本的 Python 一起使用,但必须先安装它。
连接到工作区
安装 Python SDK 后,需要连接到工作区。 通过连接,你将对环境进行身份验证,以便与工作区交互,从而创建和管理资产与资源。
若要进行身份验证,需要将值设置为三个必需参数:
subscription_id
:订阅 ID。resource_group
:资源组的名称。workspace_name
:工作区的名称。
接下来,可以使用以下代码定义身份验证:
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
ml_client = MLClient(
DefaultAzureCredential(), subscription_id, resource_group, workspace
)
定义身份验证后,需要为环境调用 MLClient
以连接到工作区。 每当要创建或更新工作区中的资产或资源时,都会调用 MLClient
。
例如,在创建新作业以训练模型时,将连接到工作区:
from azure.ai.ml import command
# configure job
job = command(
code="./src",
command="python train.py",
environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
compute="aml-cluster",
experiment_name="train-model"
)
# connect to workspace and submit job
returned_job = ml_client.create_or_update(job)
使用参考文档
若要高效使用 Python SDK,需要使用参考文档。 在参考文档中,你将找到 Python SDK 中可用的所有可能的类、方法和参数。
有关 MLClient
类的参考文档包括可用于连接工作区并与之交互的方法。 此外,它还链接到各种实体的可能操作,例如如何列出工作区中的现有数据存储。
参考文档还包括可与之交互的所有实体的类列表。 例如,如果要创建链接到 Azure Blob 存储或 Azure Data Lake Gen 2 的数据存储,则存在单独的类。
通过从实体列表中选择特定类(例如 AmlCompute
),可以找到有关如何使用类及其接受的参数的更详细页面。