识别 Azure 机器学习资产
作为数据科学家,你主要使用 Azure 机器学习工作区中的资产。 资产在项目的各个阶段创建和使用,包括:
- 模型
- 环境
- 数据
- 组件
创建和管理模型
训练模型的最终产品是模型本身。 可以使用各种框架(如 Scikit-learn 或 PyTorch)训练机器学习模型。 存储此类模型的常用方法是将模型打包为 Python pickle 文件(.pkl
扩展)。
或者,可以使用开源平台 MLflow 以 MLModel 格式存储模型。
无论选择哪种格式,二进制文件都将表示模型和任何相应的元数据。 若要保留这些文件,可以在工作区中创建或注册模型。
在工作区中创建模型时,需要指定名称和本版。 在你部署已注册的模型时,版本控制特别有用,它允许你跟踪要使用的特定模型。
创建和管理环境
使用云计算时,请务必确保代码在可供你使用的任何计算上运行。 无论你是在计算实例还是计算群集上运行脚本,代码都应成功执行。
假设在本地设备上使用 Python 或 R,使用开源框架训练模型。 如果要使用 Scikit-learn 或 PyTorch 等库,则必须在设备上安装它。
同样,在编写使用任何框架或库的代码时,需要确保在将执行代码的计算上安装必要的依赖项。 若要列出所有必要的要求,可以创建环境。 创建环境时,必须指定名称和版本。
环境指定要运行脚本的软件包、环境变量和软件设置。 环境作为映像存储在首次使用时与工作区一起创建的 Azure 容器注册表中。
每当要运行脚本时,都可以指定计算目标需要使用的环境。 在执行脚本之前,环境会在计算机上安装所有必要的组件,使代码可靠且可跨计算目标重复使用。
创建和管理数据
数据存储包含与 Azure 数据存储服务的连接信息,而数据资产指的是特定文件或文件夹。
每次都可以使用数据资产轻松访问数据,而无需在每次要访问数据时都进行身份验证。
在工作区中创建数据资产时,需要指定指向文件或文件夹的路径,以及名称和版本。
创建和管理组件
若要训练机器学习模型,需要编写代码。 在各个项目中,可能存在可重用的代码。 你希望重复使用其他项目中的代码片段,而不是从头开始编写代码。
若要更轻松地共享代码,可以在工作区中创建组件。 若要创建组件,必须指定运行代码所需的名称、版本、代码和环境。
可以在创建管道时使用组件。 因此,组件通常表示管道中的一个步骤,例如规范化数据、训练回归模型或在验证数据集上测试已训练的模型。