你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

az ml data

注意

此参考是 Azure CLI 的 ml 扩展(版本 2.15.0 或更高版本)的一部分。 该扩展将在首次运行 az ml data 命令时自动安装。 详细了解扩展

管理 Azure ML 数据资产。

Azure ML 数据资产引用存储服务中的文件或公共 URL 以及任何相应的元数据。 它们不是数据的副本。 在模型训练和装载或将引用的数据下载到计算目标期间,可以使用这些数据资产访问相关数据。

命令

名称 说明 类型 Status
az ml data archive

存档数据资产。

外延 加语
az ml data create

在工作区/注册表中创建数据资产。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

外延 加语
az ml data import

导入数据并创建数据资产。

外延 预览
az ml data list

列出工作区/注册表中的数据资产。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

外延 加语
az ml data list-materialization-status

显示创建数据资产版本的数据导入具体化作业列表的状态。

外延 预览
az ml data mount

将特定数据资产装载到本地路径。 目前仅支持 Linux。

外延 预览
az ml data restore

还原存档的数据资产。

外延 加语
az ml data share

将特定数据资产从工作区共享到注册表。

外延 预览
az ml data show

显示工作区/注册表中的数据资产的详细信息。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

外延 加语
az ml data update

更新数据资产。

外延 加语

az ml data archive

存档数据资产。

默认情况下,存档数据资产会在列表查询(az ml data list)中隐藏它。 仍可以在工作流中继续引用和使用存档的数据资产。 可以存档数据资产容器或特定数据资产版本。 存档数据资产容器将存档该给定名称下的所有数据资产版本。 可以使用 az ml data restore还原存档的数据资产。 如果存档整个数据资产容器,则无法还原数据资产的各个版本 - 需要还原数据资产容器。

az ml data archive --name
                   [--label]
                   [--resource-group]
                   [--version]
                   [--workspace-name]

示例

存档数据资产容器(存档该数据资产的所有版本)

az ml data archive --name my-env --resource-group my-resource-group --workspace-name my-workspace

存档特定数据资产版本

az ml data archive --name my-env --version 1 --resource-group my-resource-group --workspace-name my-workspace

必需参数

--name -n

数据资产的名称。

可选参数

--label -l

数据资产的标签。 与版本互斥。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--version -v

数据资产的版本。 与标签互斥。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data create

在工作区/注册表中创建数据资产。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

可以从本地计算机上的文件或对云存储中的文件的引用定义数据资产。 创建的数据资产将在工作区/注册表中跟踪指定的名称和版本。

若要从本地计算机上的文件创建数据资产,请在 YAML 配置中指定“path”字段。Azure ML 会将这些文件上传到支持工作区的默认数据存储(名为“workspaceblobstore”)的 Blob 容器。 然后,创建的数据资产将指向上传的数据。

若要在云存储中创建引用文件的数据资产,请在 YAML 配置中的存储中指定文件(s)的“路径”。

还可以直接从存储 URL 或公共 URL 创建数据资产。 为此,请在 YAML 配置中指定“path”字段的 URL。如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <my-registry-name> 选项。

az ml data create [--datastore]
                  [--description]
                  [--file]
                  [--name]
                  [--no-wait]
                  [--path]
                  [--registry-name]
                  [--resource-group]
                  [--set]
                  [--skip-validation]
                  [--type {mltable, uri_file, uri_folder}]
                  [--version]
                  [--workspace-name]

示例

从工作区中的 YAML 规范文件创建数据资产

az ml data create --file data.yml --resource-group my-resource-group --workspace-name my-workspace

从注册表中的 YAML 规范文件创建数据资产

az ml data create --file data.yml --registry-name my-registry-name

在工作区中使用 YAML 规范文件创建数据资产

az ml data create --name my-data --version 1 --path ./my-data.csv --resource-group my-resource-group --workspace-name my-workspace

在注册表中使用 YAML 规范文件的情况下创建数据资产

az ml data create --name my-data --version 1 --path ./my-data.csv --registry-name my-registry-name

可选参数

--datastore

要将本地项目上传到的数据存储。

--description -d

数据资产的说明。

--file -f

包含 Azure ML 数据规范的 YAML 文件的本地路径。 可以在以下位置找到用于数据的 YAML 参考文档:https://aka.ms/ml-cli-v2-data-yaml-reference

--name -n

数据资产的名称。 如果提供了 --registry-name,则为必需。

--no-wait

不要等待长时间运行的操作完成。 默认值为 False。

默认值: False
--path -p

数据资产的路径可以是本地或远程。

--registry-name

如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--set

通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=value。

--skip-validation

当类型为 MLTable 时,跳过 MLTable 元数据的验证。

默认值: False
--type -t

数据资产的类型。

接受的值: mltable, uri_file, uri_folder
--version -v

数据资产的版本。 如果提供了 --registry-name,则为必需。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data import

预览

此命令处于预览阶段,正在开发中。 参考和支持级别:https://aka.ms/CLI_refstatus

导入数据并创建数据资产。

可以通过首先将数据从数据库或文件系统导入云存储来创建数据资产。 创建的数据资产将在工作区中跟踪指定的名称和版本。

在 YAML 配置中的文件系统字段上指定数据库表或“path”的“query”。Azure ML 将运行一个作业,先将数据复制到云存储。

az ml data import --resource-group
                  --workspace-name
                  [--datastore]
                  [--description]
                  [--file]
                  [--name]
                  [--path]
                  [--set]
                  [--skip-validation]
                  [--type {mltable, uri_file, uri_folder}]
                  [--version]

示例

从 YAML 规范文件导入数据资产

az ml data import --file dataimport.yml --resource-group my-resource-group --workspace-name my-workspace

必需参数

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

可选参数

--datastore

要将本地项目上传到的数据存储。

--description -d

数据资产的说明。

--file -f

包含 Azure ML 数据规范的 YAML 文件的本地路径。 可以在以下位置找到用于数据的 YAML 参考文档:https://aka.ms/ml-cli-v2-data-yaml-reference

--name -n

数据资产的名称。

--path -p

云存储上的数据资产的路径。

--set

通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=value。

--skip-validation

跳过基础数据导入具体化作业引用的计算资源的验证。

默认值: False
--type -t

数据资产的类型。

接受的值: mltable, uri_file, uri_folder
--version -v

数据资产的版本。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data list

列出工作区/注册表中的数据资产。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

az ml data list [--archived-only]
                [--include-archived]
                [--max-results]
                [--name]
                [--registry-name]
                [--resource-group]
                [--workspace-name]

示例

列出工作区中的所有数据资产

az ml data list --resource-group my-resource-group --workspace-name my-workspace

列出工作区中指定名称的所有数据资产版本

az ml data list --name my-data --resource-group my-resource-group --workspace-name my-workspace

使用 --query 参数对命令结果执行 JMESPath 查询,列出工作区中的所有数据资产。

az ml data list --query "[].{Name:name}" --output table --resource-group my-resource-group --workspace-name my-workspace

列出注册表中的所有数据资产

az ml data list --registry-name my-registry-name

列出注册表中指定名称的所有数据资产版本

az ml data list --name my-data --registry-name my-registry-name

可选参数

--archived-only

仅列出存档的数据资产。

默认值: False
--include-archived

列出存档的数据资产和活动数据资产。

默认值: False
--max-results -r

要返回的最大结果数。

--name -n

数据资产的名称。 如果提供,将返回此名称下的所有数据版本。

--registry-name

如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data list-materialization-status

预览

此命令处于预览阶段,正在开发中。 参考和支持级别:https://aka.ms/CLI_refstatus

显示创建数据资产版本的数据导入具体化作业列表的状态。

az ml data list-materialization-status --resource-group
                                       --workspace-name
                                       [--all-results {false, true}]
                                       [--archived-only]
                                       [--include-archived]
                                       [--max-results]
                                       [--name]

示例

显示 YAML 规范文件中数据资产的具体化状态

az ml data list-materialization-status --name asset-name --resource-group my-resource-group --workspace-name my-workspace

必需参数

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

可选参数

--all-results

返回所有结果。

接受的值: false, true
默认值: False
--archived-only

仅列出存档作业。

默认值: False
--include-archived

列出存档的作业和活动作业。

默认值: False
--max-results -r

要返回的最大结果数。 默认值为 50。

默认值: 50
--name -p

资产的名称。 将列出创建与给定名称匹配的资产版本的所有具体化作业。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data mount

预览

此命令处于预览阶段,正在开发中。 参考和支持级别:https://aka.ms/CLI_refstatus

将特定数据资产装载到本地路径。 目前仅支持 Linux。

az ml data mount --path
                 [--mode]
                 [--mount-point]
                 [--persistent]
                 [--resource-group]
                 [--workspace-name]

示例

使用命名资产 URI 装载数据资产版本

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml:my_urifolder:1

使用 AzureML 完整 URI 装载数据资产版本

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml://subscriptions/my-sub-id/resourcegroups/my-rg/workspaces/myworkspace/data/some_data/versions/5

使用命名资产 URI 装载数据资产的所有版本

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml:my_urifolder

使用 AzureML 完整 URI 装载数据资产的所有版本

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path azureml://subscriptions/my-sub-id/resourcegroups/my-rg/workspaces/myworkspace/data/some_data

按 URL 在公共 HTTP(s) 服务器上装载数据

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv

通过 Azure Blob 存储 URL 在 Azure 上装载数据

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path https://<account_name>.blob.core.windows.net/<container_name>/<path>

通过 Azure Data Lake Storage Gen 2 URL 在 Azure 上装载数据

az ml data mount --mount-point /mnt/my-data --mode ro_mount --path abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>

必需参数

--path

要装载的数据资产路径,格式为 azureml:<name>azureml:<name>:<version>

可选参数

--mode

装载模式。 数据资产装载仅支持 ro_mount(只读)。

默认值: ro_mount
--mount-point

用作装入点的本地路径。

默认值: /home/azureuser/mount/data
--persistent

使装载在重新启动时保持保留。 仅在计算实例上受支持。

默认值: False
--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data restore

还原存档的数据资产。

还原存档的数据资产后,将不再隐藏列表查询(az ml data list)。 如果存档了整个数据资产容器,则可以还原该存档的容器。 这将还原该给定名称下的所有数据资产版本。 如果存档了整个数据资产容器,则不能仅还原特定的数据资产版本 - 需要还原整个容器。 如果仅存档了单个数据资产版本,则可以还原该特定版本。

az ml data restore --name
                   [--label]
                   [--resource-group]
                   [--version]
                   [--workspace-name]

示例

还原存档的数据资产容器(还原该数据资产的所有版本)

az ml data restore --name my-env --resource-group my-resource-group --workspace-name my-workspace

还原特定的存档数据资产版本

az ml data restore --name my-env --version 1 --resource-group my-resource-group --workspace-name my-workspace

必需参数

--name -n

数据资产的名称。

可选参数

--label -l

数据资产的标签。 与版本互斥。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--version -v

数据资产的版本。 与标签互斥。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data share

预览

此命令处于预览阶段,正在开发中。 参考和支持级别:https://aka.ms/CLI_refstatus

将特定数据资产从工作区共享到注册表。

将现有数据资产从工作区复制到注册表,以便重复使用跨工作区。

az ml data share --name
                 --registry-name
                 --resource-group
                 --share-with-name
                 --share-with-version
                 --version
                 --workspace-name

示例

将现有数据资产从工作区共享到注册表

az ml data share --name my-data --version my-version --resource-group my-resource-group --workspace-name my-workspace --share-with-name new-name-in-registry --share-with-version new-version-in-registry --registry-name my-registry

必需参数

--name -n

数据资产的名称。

--registry-name

目标注册表。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--share-with-name

要创建的数据资产的名称。

--share-with-version

要创建的数据资产的版本。

--version -v

数据资产的版本。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data show

显示工作区/注册表中的数据资产的详细信息。 如果使用注册表,请将 --workspace-name my-workspace 替换为 --registry-name <registry-name> 选项。

az ml data show --name
                [--label]
                [--registry-name]
                [--resource-group]
                [--version]
                [--workspace-name]

示例

显示工作区中具有指定名称和版本的数据资产的详细信息

az ml data show --name my-data --version 1 --resource-group my-resource-group --workspace-name my-workspace

显示具有指定名称和标签的数据资产的详细信息

az ml data show --name my-data --label latest --resource-group my-resource-group --workspace-name my-workspace

显示注册表中具有指定名称和版本的数据资产的详细信息

az ml data show --name my-data --version 1 --registry-name my-registry-name

必需参数

--name -n

数据资产的名称。

可选参数

--label -l

数据资产的标签。 如果未提供版本,则必须提供。 与版本互斥。

--registry-name

如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--version -v

数据资产的版本。 如果未提供标签,则必须提供。 与标签互斥。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。

az ml data update

更新数据资产。

只能更新“description”和“tags”属性。

az ml data update --name
                  --resource-group
                  --workspace-name
                  [--add]
                  [--force-string]
                  [--label]
                  [--registry-name]
                  [--remove]
                  [--set]
                  [--version]

必需参数

--name -n

数据资产的名称。

--resource-group -g

资源组的名称。 可以使用 az configure --defaults group=<name>配置默认组。

--workspace-name -w

Azure ML 工作区的名称。 可以使用 az configure --defaults workspace=<name>配置默认工作区。

可选参数

--add

通过指定路径和键值对将对象添加到对象列表。 示例:--add property.listProperty <key=value, string or JSON string>

默认值: []
--force-string

使用“set”或“add”时,保留字符串文本,而不是尝试转换为 JSON。

默认值: False
--label -l

数据资产的标签。 如果未提供版本,则必须提供。 与版本互斥。

--registry-name

如果提供,该命令将面向注册表而不是工作区。 因此,不需要资源组和工作区。 如果未提供 --workspace-name 和 --resource-group,则必须提供。

--remove

从列表中删除属性或元素。 示例:--remove property.list <indexToRemove>--remove propertyToRemove

默认值: []
--set

通过指定要设置的属性路径和值来更新对象。 示例:--set property1.property2=<value>

默认值: []
--version -v

数据资产的版本。 如果未提供标签,则必须提供。 与标签互斥。

全局参数
--debug

增加日志记录详细程度以显示所有调试日志。

--help -h

显示此帮助消息并退出。

--only-show-errors

仅显示错误,禁止显示警告。

--output -o

输出格式。

接受的值: json, jsonc, none, table, tsv, yaml, yamlc
默认值: json
--query

JMESPath 查询字符串。 有关详细信息和示例,请参阅 http://jmespath.org/

--subscription

订阅的名称或 ID。 可以使用 az account set -s NAME_OR_ID配置默认订阅。

--verbose

增加日志记录详细程度。 对完整调试日志使用 --debug。