DataReference 类
表示对数据存储中数据的引用。
DataReference 表示数据存储中的路径,可用于描述如何在运行中提供数据以及在何处提供数据。 不再建议用于数据访问和 Azure 机器学习交付。 数据集支持通过添加了数据管理功能的统一接口从 Azure Blob 存储、Azure 文件存储、Azure Data Lake 存储 Gen1、Azure Data Lake 存储 Gen2、Azure SQL 数据库 和 Azure Database for PostgreSQL 访问数据。 建议使用数据集读取机器学习项目中的数据。
若要详细了解如何在两种常见方案中使用 Azure 机器学习数据集,请参阅以下文章:
类 DataReference 构造函数。
- 继承
-
builtins.objectDataReference
构造函数
DataReference(datastore, data_reference_name=None, path_on_datastore=None, mode='mount', path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
datastore
必需
|
要引用的数据存储。 |
data_reference_name
|
数据引用的名称。 默认值: None
|
path_on_datastore
|
数据引用在后备存储中的相对路径。 默认值: None
|
mode
|
对数据引用的操作。 支持的值为“mount”(默认值)和“download”。 当脚本需要输入数据的特定(例如,硬编码)路径时,请使用“下载”模式。
在本例中,在声明 DataReference 时,使用 在“装载”模式下,使用装载的数据创建一个临时目录,并使用临时目录的路径设置环境变量 $AZUREML_DATAREFERENCE_data_reference_name<>。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则该引用将在运行时扩展到本地数据路径。 默认值: mount
|
path_on_compute
|
用于数据引用的计算目标上的路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
datastore
必需
|
要引用的数据存储。 |
data_reference_name
必需
|
数据引用的名称。 |
path_on_datastore
必需
|
数据引用在后备存储中的相对路径。 |
mode
必需
|
对数据引用的操作。 支持的值“mount” (默认) 和“download”。 当脚本需要输入数据的特定(例如,硬编码)路径时,请使用“下载”模式。
在本例中,在声明 DataReference 时,使用 在“装载”模式下,使用装载的数据创建一个临时目录,并使用临时目录的路径设置环境变量 $AZUREML_DATAREFERENCE_data_reference_name<>。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则该引用将在运行时扩展到本地数据路径。 |
path_on_compute
必需
|
用于数据引用的计算目标上的路径。 |
overwrite
必需
|
指示是否覆盖现有数据。 |
注解
DataReference 定义了数据位置以及数据在目标计算绑定(装载或上传)上的使用方式。 数据存储中数据的路径可以是根 /、数据存储中的目录或数据存储中的文件。
方法
as_download |
将数据引用操作切换为下载。 DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。 |
as_mount |
将数据引用操作切换为装载。 DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。 |
as_upload |
将数据引用操作切换为上传。 有关哪些计算和数据存储支持上传数据的详细信息,请参阅:https://aka.ms/datastore-matrix。 |
create |
使用 DataPath 和 DataPathComputeBinding 创建 DataReference。 |
path |
基于给定路径创建 DataReference 实例。 |
to_config |
将 DataReference 对象转换为 DataReferenceConfiguration 对象。 |
as_download
将数据引用操作切换为下载。
DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。
as_download(path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
path_on_compute
|
用于数据引用的计算的路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
as_mount
将数据引用操作切换为装载。
DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 若要详细了解如何创建和使用数据集,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。
as_mount()
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
as_upload
将数据引用操作切换为上传。
有关哪些计算和数据存储支持上传数据的详细信息,请参阅:https://aka.ms/datastore-matrix。
as_upload(path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
path_on_compute
|
用于数据引用的计算的路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
create
使用 DataPath 和 DataPathComputeBinding 创建 DataReference。
static create(data_reference_name=None, datapath=None, datapath_compute_binding=None)
参数
名称 | 说明 |
---|---|
data_reference_name
|
要创建的数据引用的名称。 默认值: None
|
datapath
|
[必需] 要使用的数据路径。 默认值: None
|
datapath_compute_binding
|
[必需] 要使用的数据路径计算绑定。 默认值: None
|
返回
类型 | 说明 |
---|---|
DataReference 对象。 |
path
基于给定路径创建 DataReference 实例。
path(path=None, data_reference_name=None)
参数
名称 | 说明 |
---|---|
path
|
数据存储上的路径。 默认值: None
|
data_reference_name
|
数据引用的名称。 默认值: None
|
返回
类型 | 说明 |
---|---|
数据引用对象。 |
to_config
将 DataReference 对象转换为 DataReferenceConfiguration 对象。
to_config()
返回
类型 | 说明 |
---|---|
新的 DataReferenceConfiguration 对象。 |