识别 Azure 机器学习资源
Azure 机器学习中的资源是指运行机器学习工作流所需的基础结构。 理想情况下,你希望由管理员等人创建和管理资源。
Azure 机器学习中的资源包括:
- 工作区
- 计算资源
- 数据存储
创建和管理工作区
工作区是 Azure 机器学习的顶级资源。 数据科学家需要访问工作区来训练和跟踪模型,并将模型部署到终结点。
但是,需要注意谁对工作区具有完全访问权限。 在对计算资源和数据存储的引用旁边,可以找到工作区中代码的所有日志、指标、输出、模型和快照。
创建和管理计算资源
训练或部署模型时,最重要的资源之一是计算。 Azure 机器学习工作区中有五种类型的计算:
- 计算实例:类似于云中的虚拟机,由工作区管理。 非常适合用作开发环境来运行 (Jupyter) 笔记本。
- 计算群集:云中 CPU 或 GPU 计算节点的按需群集,由工作区管理。 非常适合用于生产工作负载,因为它们可自动缩放以满足需求。
- Kubernetes 群集:支持创建或附加 Azure Kubernetes 服务 (AKS) 群集。 非常适合在生产方案中部署训练的机器学习模型。
- 附加的计算:允许将其他 Azure 计算资源附加到工作区,例如 Azure Databricks 或 Synapse Spark 池。
- 无服务器计算:可用于训练作业的完全托管的按需计算。
注意
当 Azure 机器学习为你创建和管理无服务器计算时,工作室的计算页上不会显示相关信息。 详细了解如何使用无服务器计算来训练模型
尽管计算是处理机器学习工作负载时最重要的资源,但它也可能是最耗费成本的资源。 因此,最佳做法是仅允许管理员创建和管理计算资源。 不应允许数据科学家编辑计算,而只能使用可用的计算来运行其工作负载。
创建和管理数据存储
工作区本身不存储任何数据。 相反,所有数据都存储在数据存储中,数据存储是对 Azure 数据服务的引用。 数据存储所表示的数据服务的连接信息存储在 Azure Key Vault 中。
创建工作区时,会创建一个 Azure 存储帐户,并自动连接到工作区。 因此已将四个数据存储添加到工作区:
workspaceartifactstore
:连接到使用工作区创建的 Azure 存储帐户的azureml
容器。 用于在运行作业时存储计算和试验日志。workspaceworkingdirectory
:连接到 Azure 存储帐户的文件共享,它是使用工作室 Notebooks 部分所用工作区创建的。 每当上传要从计算实例访问的文件或文件夹时,文件或文件夹都会上传到此文件共享。workspaceblobstore
:连接到使用工作区创建的 Azure 存储帐户的 Blob 存储。 具体而言是azureml-blobstore-...
容器。 设置为默认数据存储,这意味着每当创建数据资产并上传数据时,会将数据存储在此容器中。workspacefilestore
:连接到使用工作区创建的 Azure 存储帐户的文件共享。 具体而言是azureml-filestore-...
文件共享。
此外,还可以创建数据存储以连接到其他 Azure 数据服务。 最常见的情况是,数据存储连接到 Azure 存储帐户或 Azure Data Lake Storage (Gen2),作为数据科学项目中最常用的数据服务。