你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
az ml data
注意
此参考是 Azure CLI(版本 2.15.0 或更高版本)的 ml 扩展的一部分。 该扩展将在首次运行 az ml data 命令时自动安装。 详细了解扩展。
管理 Azure ML 数据资产。
Azure ML 数据资产引用存储服务中的文件或公共 URL 以及任何相应的元数据。 它们不是数据的副本。 在模型训练和装载或将引用的数据下载到计算目标期间,可以使用这些数据资产访问相关数据。
命令
名称 | 说明 | 类型 | 状态 |
---|---|---|---|
az ml data archive |
存档数据资产。 |
扩展 | GA |
az ml data create |
在工作区/注册表中创建数据资产。 如果使用注册表,请替换为 |
扩展 | GA |
az ml data import |
导入数据并创建数据资产。 |
扩展 | 预览 |
az ml data list |
列出工作区/注册表中的数据资产。 如果使用注册表,请替换为 |
扩展 | GA |
az ml data list-materialization-status |
显示创建数据资产版本的数据导入具体化作业列表的状态。 |
扩展 | 预览 |
az ml data mount |
将特定数据资产装载到本地路径。 目前仅支持 Linux。 |
扩展 | 预览 |
az ml data restore |
还原存档的数据资产。 |
扩展 | GA |
az ml data share |
将特定数据资产从工作区共享到注册表。 |
扩展 | 预览 |
az ml data show |
显示工作区/注册表中的数据资产的详细信息。 如果使用注册表,请替换为 |
扩展 | GA |
az ml data update |
更新数据资产。 |
扩展 | GA |
az ml data archive
存档数据资产。
默认情况下,存档数据资产会在列表查询(az ml data list
)中隐藏它。 你仍可继续在工作流中引用和使用已存档的数据资产。 可以存档数据资产容器或特定数据资产版本。 存档数据资产容器将存档该给定名称下的所有数据资产版本。 可以使用 .. 还原存档的数据资产 az ml data restore
。 如果存档整个数据资产容器,则无法还原数据资产的各个版本 - 需要还原数据资产容器。
az ml data archive --name
[--label]
[--resource-group]
[--version]
[--workspace-name]
示例
存档数据资产容器(存档该数据资产的所有版本)
az ml data archive --name my-env --resource-group my-resource-group --workspace-name my-workspace
存档特定数据资产版本
az ml data archive --name my-env --version 1 --resource-group my-resource-group --workspace-name my-workspace
必需参数
数据资产的名称。
可选参数
数据资产的标签。 与版本互斥。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
数据资产的版本。 与标签互斥。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data create
在工作区/注册表中创建数据资产。 如果使用注册表,请替换为--workspace-name my-workspace
--registry-name <registry-name>
该选项。
可以从本地计算机上的文件或对云存储中的文件的引用定义数据资产。 创建的数据资产将在工作区/注册表中跟踪指定的名称和版本。
若要从本地计算机上的文件创建数据资产,请在 YAML 配置中指定“path”字段。Azure ML 会将这些文件上传到支持工作区的默认数据存储(名为“workspaceblobstore”)的 Blob 容器。 然后,创建的数据资产将指向上传的数据。
若要在云存储中创建引用文件的数据资产,请在 YAML 配置中的存储中指定文件(s)的“路径”。
还可以直接从存储 URL 或公共 URL 创建数据资产。 为此,请在 YAML 配置中指定“path”字段的 URL。如果使用注册表,请替换为--workspace-name my-workspace
--registry-name <my-registry-name>
该选项。
az ml data create [--datastore]
[--description]
[--file]
[--name]
[--no-wait]
[--path]
[--registry-name]
[--resource-group]
[--set]
[--skip-validation]
[--type {mltable, uri_file, uri_folder}]
[--version]
[--workspace-name]
示例
从工作区中的 YAML 规范文件创建数据资产
az ml data create --file data.yml --resource-group my-resource-group --workspace-name my-workspace
从注册表中的 YAML 规范文件创建数据资产
az ml data create --file data.yml --registry-name my-registry-name
在工作区中使用 YAML 规范文件创建数据资产
az ml data create --name my-data --version 1 --path ./my-data.csv --resource-group my-resource-group --workspace-name my-workspace
在注册表中使用 YAML 规范文件的情况下创建数据资产
az ml data create --name my-data --version 1 --path ./my-data.csv --registry-name my-registry-name
可选参数
要将本地项目上传到的数据存储。
数据资产的说明。
包含 Azure ML 数据规范的 YAML 文件的本地路径。 可在以下位置找到用于数据的 YAML 参考文档。 https://aka.ms/ml-cli-v2-data-yaml-reference
数据资产的名称。 如果提供了 --registry-name,则为必需。
不要等待长时间运行的操作完成。 默认值为 False。
数据资产的路径可以是本地或远程。
如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=。
当类型为 MLTable 时,跳过 MLTable 元数据的验证。
数据资产的类型。
数据资产的版本。 如果提供了 --registry-name,则为必需。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data import
此命令处于预览阶段,正在开发中。 参考和支持级别: https://aka.ms/CLI_refstatus
导入数据并创建数据资产。
可以通过首先将数据从数据库或文件系统导入云存储来创建数据资产。 创建的数据资产将在工作区中跟踪指定的名称和版本。
在 YAML 配置中的文件系统字段上指定数据库表或“path”的“query”。Azure ML 将运行一个作业,先将数据复制到云存储。
az ml data import --resource-group
--workspace-name
[--datastore]
[--description]
[--file]
[--name]
[--path]
[--set]
[--skip-validation]
[--type {mltable, uri_file, uri_folder}]
[--version]
示例
从 YAML 规范文件导入数据资产
az ml data import --file dataimport.yml --resource-group my-resource-group --workspace-name my-workspace
必需参数
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
可选参数
要将本地项目上传到的数据存储。
数据资产的说明。
包含 Azure ML 数据规范的 YAML 文件的本地路径。 可在以下位置找到用于数据的 YAML 参考文档。 https://aka.ms/ml-cli-v2-data-yaml-reference
数据资产的名称。
云存储上的数据资产的路径。
通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=。
跳过基础数据导入具体化作业引用的计算资源的验证。
数据资产的类型。
数据资产的版本。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data list
列出工作区/注册表中的数据资产。 如果使用注册表,请替换为--workspace-name my-workspace
--registry-name <registry-name>
该选项。
az ml data list [--archived-only]
[--include-archived]
[--max-results]
[--name]
[--registry-name]
[--resource-group]
[--workspace-name]
示例
列出工作区中的所有数据资产
az ml data list --resource-group my-resource-group --workspace-name my-workspace
列出工作区中指定名称的所有数据资产版本
az ml data list --name my-data --resource-group my-resource-group --workspace-name my-workspace
使用 --query 参数对命令结果执行 JMESPath 查询,列出工作区中的所有数据资产。
az ml data list --query "[].{Name:name}" --output table --resource-group my-resource-group --workspace-name my-workspace
列出注册表中的所有数据资产
az ml data list --registry-name my-registry-name
列出注册表中指定名称的所有数据资产版本
az ml data list --name my-data --registry-name my-registry-name
可选参数
仅列出存档的数据资产。
列出存档的数据资产和活动数据资产。
要返回的最大结果数。
数据资产的名称。 如果提供,将返回此名称下的所有数据版本。
如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data list-materialization-status
此命令处于预览阶段,正在开发中。 参考和支持级别: https://aka.ms/CLI_refstatus
显示创建数据资产版本的数据导入具体化作业列表的状态。
az ml data list-materialization-status --resource-group
--workspace-name
[--all-results {false, true}]
[--archived-only]
[--include-archived]
[--max-results]
[--name]
示例
显示 YAML 规范文件中数据资产的具体化状态
az ml data list-materialization-status --name asset-name --resource-group my-resource-group --workspace-name my-workspace
必需参数
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
可选参数
返回所有结果。
仅列出存档作业。
列出存档的作业和活动作业。
要返回的最大结果数。 默认值为 50。
资产的名称。 将列出创建与给定名称匹配的资产版本的所有具体化作业。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data mount
此命令处于预览阶段,正在开发中。 参考和支持级别: https://aka.ms/CLI_refstatus
将特定数据资产装载到本地路径。 目前仅支持 Linux。
az ml data mount --path
[--mode]
[--mount-point]
[--persistent]
[--resource-group]
[--workspace-name]
示例
使用命名资产 URI 装载数据资产版本
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml:my_urifolder:1
使用 AzureML 完整 URI 装载数据资产版本
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml://subscriptions/my-sub-id/resourcegroups/my-rg/workspaces/myworkspace/data/some_data/versions/5
使用命名资产 URI 装载数据资产的所有版本
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml:my_urifolder
使用 AzureML 完整 URI 装载数据资产的所有版本
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml://subscriptions/my-sub-id/resourcegroups/my-rg/workspaces/myworkspace/data/some_data
按 URL 在公共 HTTP(s) 服务器上装载数据
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
通过Azure Blob 存储 URL 在 Azure 上装载数据
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path https://<account_name>.blob.core.windows.net/<container_name>/<path>
通过 Azure Data Lake 存储第 2 代 URL 在 Azure 上装载数据
az ml data mount --mount-point /mnt/my-data --mode ro_mount --path abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>
必需参数
要装载的数据资产路径,格式 azureml:<name>
为或 azureml:<name>:<version>
。
可选参数
装载模式。 数据资产装载仅 ro_mount
支持(只读)。
用作装入点的本地路径。
使装载在重新启动时保持保留。 仅在计算实例上受支持。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data restore
还原存档的数据资产。
还原存档的数据资产后,它将不再隐藏在列表查询中(az ml data list
)。 如果存档了整个数据资产容器,则可以还原该存档的容器。 这将还原该给定名称下的所有数据资产版本。 如果存档了整个数据资产容器,则不能仅还原特定的数据资产版本 - 需要还原整个容器。 如果仅存档了单个数据资产版本,则可以还原该特定版本。
az ml data restore --name
[--label]
[--resource-group]
[--version]
[--workspace-name]
示例
还原存档的数据资产容器(还原该数据资产的所有版本)
az ml data restore --name my-env --resource-group my-resource-group --workspace-name my-workspace
还原特定的存档数据资产版本
az ml data restore --name my-env --version 1 --resource-group my-resource-group --workspace-name my-workspace
必需参数
数据资产的名称。
可选参数
数据资产的标签。 与版本互斥。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
数据资产的版本。 与标签互斥。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data share
此命令处于预览阶段,正在开发中。 参考和支持级别: https://aka.ms/CLI_refstatus
将特定数据资产从工作区共享到注册表。
将现有数据资产从工作区复制到注册表,以便重复使用跨工作区。
az ml data share --name
--registry-name
--resource-group
--share-with-name
--share-with-version
--version
--workspace-name
示例
将现有数据资产从工作区共享到注册表
az ml data share --name my-data --version my-version --resource-group my-resource-group --workspace-name my-workspace --share-with-name new-name-in-registry --share-with-version new-version-in-registry --registry-name my-registry
必需参数
数据资产的名称。
目标注册表。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
要创建的数据资产的名称。
要创建的数据资产的版本。
数据资产的版本。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data show
显示工作区/注册表中的数据资产的详细信息。 如果使用注册表,请替换为--workspace-name my-workspace
--registry-name <registry-name>
该选项。
az ml data show --name
[--label]
[--registry-name]
[--resource-group]
[--version]
[--workspace-name]
示例
显示工作区中具有指定名称和版本的数据资产的详细信息
az ml data show --name my-data --version 1 --resource-group my-resource-group --workspace-name my-workspace
显示具有指定名称和标签的数据资产的详细信息
az ml data show --name my-data --label latest --resource-group my-resource-group --workspace-name my-workspace
显示注册表中具有指定名称和版本的数据资产的详细信息
az ml data show --name my-data --version 1 --registry-name my-registry-name
必需参数
数据资产的名称。
可选参数
数据资产的标签。 如果未提供版本,则必须提供。 与版本互斥。
如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
数据资产的版本。 如果未提供标签,则必须提供。 与标签互斥。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。
az ml data update
更新数据资产。
只能更新“description”和“tags”属性。
az ml data update --name
--resource-group
--workspace-name
[--add]
[--force-string]
[--label]
[--registry-name]
[--remove]
[--set]
[--version]
必需参数
数据资产的名称。
资源组的名称。 可以使用 az configure --defaults group=<name>
配置默认组。
Azure ML 工作区的名称。 可以使用 配置默认工作区 az configure --defaults workspace=<name>
。
可选参数
通过指定路径和键值对将对象添加到对象列表。 示例:--add property.listProperty <key=value, string or JSON string>
。
使用“set”或“add”时,保留字符串文本,而不是尝试转换为 JSON。
数据资产的标签。 如果未提供版本,则必须提供。 与版本互斥。
如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。
从列表中删除属性或元素。 示例: --remove property.list <indexToRemove>
OR --remove propertyToRemove
.
通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=<value>
。
数据资产的版本。 如果未提供标签,则必须提供。 与标签互斥。
全局参数
提高日志记录详细程度以显示所有调试日志。
显示此帮助消息并退出。
只显示错误,取消显示警告。
输出格式。
JMESPath 查询字符串。 有关更多信息和示例,请参阅 http://jmespath.org/。
订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID
配置默认订阅。
提高日志记录详细程度。 使用 --debug 获取完整的调试日志。