DataReference 类

表示对数据存储中数据的引用。

DataReference 表示数据存储中的路径,可用于描述如何在运行中提供数据以及在何处提供数据。 不再建议用于数据访问和 Azure 机器学习交付。 数据集支持通过添加了数据管理功能的统一接口从 Azure Blob 存储、Azure 文件存储、Azure Data Lake 存储 Gen1、Azure Data Lake 存储 Gen2、Azure SQL 数据库 和 Azure Database for PostgreSQL 访问数据。 建议使用数据集读取机器学习项目中的数据。

若要详细了解如何在两种常见方案中使用 Azure 机器学习数据集,请参阅以下文章:

类 DataReference 构造函数。

继承
builtins.object
DataReference

构造函数

DataReference(datastore, data_reference_name=None, path_on_datastore=None, mode='mount', path_on_compute=None, overwrite=False)

参数

名称 说明
datastore
必需

要引用的数据存储。

data_reference_name
str

数据引用的名称。

默认值: None
path_on_datastore
str

数据引用在后备存储中的相对路径。

默认值: None
mode
str

对数据引用的操作。 支持的值为“mount”(默认值)和“download”。

当脚本需要输入数据的特定(例如,硬编码)路径时,请使用“下载”模式。 在本例中,在声明 DataReference 时,使用 path_on_compute 参数指定路径。 Azure 机器学习将在执行脚本之前下载该路径指定的数据。

在“装载”模式下,使用装载的数据创建一个临时目录,并使用临时目录的路径设置环境变量 $AZUREML_DATAREFERENCE_data_reference_name<>。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则该引用将在运行时扩展到本地数据路径。

默认值: mount
path_on_compute
str

用于数据引用的计算目标上的路径。

默认值: None
overwrite

指示是否覆盖现有数据。

默认值: False
datastore
必需

要引用的数据存储。

data_reference_name
必需
str

数据引用的名称。

path_on_datastore
必需
str

数据引用在后备存储中的相对路径。

mode
必需
str

对数据引用的操作。 支持的值“mount” (默认) 和“download”。

当脚本需要输入数据的特定(例如,硬编码)路径时,请使用“下载”模式。 在本例中,在声明 DataReference 时,使用 path_on_compute 参数指定路径。 Azure 机器学习将在执行脚本之前下载该路径指定的数据。

在“装载”模式下,使用装载的数据创建一个临时目录,并使用临时目录的路径设置环境变量 $AZUREML_DATAREFERENCE_data_reference_name<>。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则该引用将在运行时扩展到本地数据路径。

path_on_compute
必需
str

用于数据引用的计算目标上的路径。

overwrite
必需

指示是否覆盖现有数据。

注解

DataReference 定义了数据位置以及数据在目标计算绑定(装载或上传)上的使用方式。 数据存储中数据的路径可以是根 /、数据存储中的目录或数据存储中的文件。

方法

as_download

将数据引用操作切换为下载。

DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets

as_mount

将数据引用操作切换为装载。

DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets

as_upload

将数据引用操作切换为上传。

有关哪些计算和数据存储支持上传数据的详细信息,请参阅:https://aka.ms/datastore-matrix

create

使用 DataPath 和 DataPathComputeBinding 创建 DataReference。

path

基于给定路径创建 DataReference 实例。

to_config

将 DataReference 对象转换为 DataReferenceConfiguration 对象。

as_download

将数据引用操作切换为下载。

DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets

as_download(path_on_compute=None, overwrite=False)

参数

名称 说明
path_on_compute
str

用于数据引用的计算的路径。

默认值: None
overwrite

指示是否覆盖现有数据。

默认值: False

返回

类型 说明

新的数据引用对象。

as_mount

将数据引用操作切换为装载。

DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets

as_mount()

返回

类型 说明

新的数据引用对象。

as_upload

将数据引用操作切换为上传。

有关哪些计算和数据存储支持上传数据的详细信息,请参阅:https://aka.ms/datastore-matrix

as_upload(path_on_compute=None, overwrite=False)

参数

名称 说明
path_on_compute
str

用于数据引用的计算的路径。

默认值: None
overwrite

指示是否覆盖现有数据。

默认值: False

返回

类型 说明

新的数据引用对象。

create

使用 DataPath 和 DataPathComputeBinding 创建 DataReference。

static create(data_reference_name=None, datapath=None, datapath_compute_binding=None)

参数

名称 说明
data_reference_name
str

要创建的数据引用的名称。

默认值: None
datapath

[必需] 要使用的数据路径。

默认值: None
datapath_compute_binding

[必需] 要使用的数据路径计算绑定。

默认值: None

返回

类型 说明

DataReference 对象。

path

基于给定路径创建 DataReference 实例。

path(path=None, data_reference_name=None)

参数

名称 说明
path
str

数据存储上的路径。

默认值: None
data_reference_name
str

数据引用的名称。

默认值: None

返回

类型 说明

数据引用对象。

to_config

将 DataReference 对象转换为 DataReferenceConfiguration 对象。

to_config()

返回

类型 说明

新的 DataReferenceConfiguration 对象。