识别 Azure 机器学习资源

已完成

Azure 机器学习中的资源是指运行机器学习工作流所需的基础结构。 理想情况下,你希望由管理员等人创建和管理资源。

Azure 机器学习中的资源包括:

  • 工作区
  • 计算资源
  • 数据存储

创建和管理工作区

工作区是 Azure 机器学习的顶级资源。 数据科学家需要访问工作区来训练和跟踪模型,并将模型部署到终结点。

但是,需要注意谁对工作区具有完全访问权限。 在对计算资源和数据存储的引用旁边,可以找到工作区中代码的所有日志、指标、输出、模型和快照。

创建和管理计算资源

训练或部署模型时,最重要的资源之一是计算。 Azure 机器学习工作区中有五种类型的计算:

  • 计算实例:类似于云中的虚拟机,由工作区管理。 非常适合用作开发环境来运行 (Jupyter) 笔记本。
  • 计算群集:云中 CPU 或 GPU 计算节点的按需群集,由工作区管理。 非常适合用于生产工作负载,因为它们可自动缩放以满足需求。
  • Kubernetes 群集:支持创建或附加 Azure Kubernetes 服务 (AKS) 群集。 非常适合在生产方案中部署训练的机器学习模型。
  • 附加的计算:允许将其他 Azure 计算资源附加到工作区,例如 Azure Databricks 或 Synapse Spark 池。
  • 无服务器计算:可用于训练作业的完全托管的按需计算。

注意

当 Azure 机器学习为你创建和管理无服务器计算时,工作室的计算页上不会显示相关信息。 详细了解如何使用无服务器计算来训练模型

尽管计算是处理机器学习工作负载时最重要的资源,但它也可能是最耗费成本的资源。 因此,最佳做法是仅允许管理员创建和管理计算资源。 不应允许数据科学家编辑计算,而只能使用可用的计算来运行其工作负载。

创建和管理数据存储

工作区本身不存储任何数据。 相反,所有数据都存储在数据存储中,数据存储是对 Azure 数据服务的引用。 数据存储所表示的数据服务的连接信息存储在 Azure Key Vault 中。

创建工作区时,会创建一个 Azure 存储帐户,并自动连接到工作区。 因此已将四个数据存储添加到工作区:

  • workspaceartifactstore:连接到使用工作区创建的 Azure 存储帐户的 azureml 容器。 用于在运行作业时存储计算和试验日志。
  • workspaceworkingdirectory:连接到 Azure 存储帐户的文件共享,它是使用工作室 Notebooks 部分所用工作区创建的。 每当上传要从计算实例访问的文件或文件夹时,文件或文件夹都会上传到此文件共享。
  • workspaceblobstore:连接到使用工作区创建的 Azure 存储帐户的 Blob 存储。 具体而言是 azureml-blobstore-... 容器。 设置为默认数据存储,这意味着每当创建数据资产并上传数据时,会将数据存储在此容器中。
  • workspacefilestore:连接到使用工作区创建的 Azure 存储帐户的文件共享。 具体而言是 azureml-filestore-... 文件共享。

此外,还可以创建数据存储以连接到其他 Azure 数据服务。 最常见的情况是,数据存储连接到 Azure 存储帐户或 Azure Data Lake Storage (Gen2),作为数据科学项目中最常用的数据服务。