共用方式為


AbstractDataset 類別

Azure Machine Learning 中資料集的基類。

請參考 TabularDatasetFactory 類別和 FileDatasetFactory 類別,以建立資料集的實例。

類別 AbstractDataset 建構函式。

此建構函式不應該直接叫用。 資料集旨在使用 TabularDatasetFactory 類別和 FileDatasetFactory 類別來建立。

繼承
builtins.object
AbstractDataset

建構函式

AbstractDataset()

方法

add_tags

將索引鍵值組新增至此資料集的標記字典。

as_named_input

提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。

get_all

取得工作區中的所有已註冊資料集。

get_by_id

取得儲存至工作區的資料集。

get_by_name

依註冊名稱從工作區取得已註冊的資料集。

get_partition_key_values

傳回partition_keys的唯一索引鍵值。

驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

向提供的工作區註冊資料集。

remove_tags

從此資料集的標記字典中移除指定的索引鍵。

unregister_all_versions

從工作區取消註冊此資料集註冊名稱下的所有版本。

update

執行資料集的就地更新。

add_tags

將索引鍵值組新增至此資料集的標記字典。

add_tags(tags=None)

參數

名稱 Description
tags
必要

要加入之標籤的字典。

傳回

類型 Description

更新的資料集物件。

as_named_input

提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。

as_named_input(name)

參數

名稱 Description
name
必要
str

執行之資料集的名稱。

傳回

類型 Description

組態物件,描述如何在執行中具體化資料集。

備註

此處的名稱僅適用于 Azure Machine Learning 執行。 名稱只能包含英數位元和底線字元,因此可以做為環境變數使用。 您可以使用下列兩種方法來擷取執行內容中的資料集:

  • 環境變數:

    此名稱會是環境變數名稱,而具體化資料集將可做為環境變數的值。 如果資料集已下載或掛接,此值將會是已下載/掛接的路徑。 例如:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注意

如果資料集設定為直接模式,則此值會是資料集識別碼。 然後,您可以

執行 Dataset.get_by_id (os.environ['foo']) 來擷取資料集物件

  • Run.input_datasets:

    這是字典,其中索引鍵會是您在此方法中指定的資料集名稱,而值將會是具體化的資料集。 針對已下載和掛接的資料集,此值會是已下載/掛接的路徑。 針對直接模式,此值會與您在作業提交腳本中指定的資料集物件相同。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

取得工作區中的所有已註冊資料集。

static get_all(workspace)

參數

名稱 Description
workspace
必要

已註冊資料集的現有 AzureML 工作區。

傳回

類型 Description

TabularDataset 和 FileDataset 物件的字典,以其註冊名稱為索引鍵。

get_by_id

取得儲存至工作區的資料集。

static get_by_id(workspace, id, **kwargs)

參數

名稱 Description
workspace
必要

儲存資料集的現有 AzureML 工作區。

id
必要
str

資料集的識別碼。

傳回

類型 Description

資料集物件。 如果已註冊資料集,也會傳回其註冊名稱和版本。

get_by_name

依註冊名稱從工作區取得已註冊的資料集。

static get_by_name(workspace, name, version='latest', **kwargs)

參數

名稱 Description
workspace
必要

已註冊資料集的現有 AzureML 工作區。

name
必要
str

註冊名稱。

version
必要
int

註冊版本。 預設為 'latest'。

傳回

類型 Description

已註冊的資料集物件。

get_partition_key_values

傳回partition_keys的唯一索引鍵值。

驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

參數

名稱 Description
partition_keys
必要

分割區索引鍵

register

向提供的工作區註冊資料集。

register(workspace, name, description=None, tags=None, create_new_version=False)

參數

名稱 Description
workspace
必要

要註冊資料集的工作區。

name
必要
str

要註冊資料集的名稱。

description
必要
str

資料集的文字描述。 預設為 [無]。

tags
必要

索引鍵值標籤的字典,以提供資料集。 預設為 [無]。

create_new_version
必要

布林值,以在指定的名稱下將資料集註冊為新版本。

傳回

類型 Description

已註冊的資料集物件。

remove_tags

從此資料集的標記字典中移除指定的索引鍵。

remove_tags(tags=None)

參數

名稱 Description
tags
必要

要移除的索引鍵清單。

傳回

類型 Description

更新的資料集物件。

unregister_all_versions

從工作區取消註冊此資料集註冊名稱下的所有版本。

unregister_all_versions()

備註

此作業不會變更任何來源資料。

update

執行資料集的就地更新。

update(description=None, tags=None)

參數

名稱 Description
description
必要
str

要用於資料集的新描述。 此描述會取代現有的描述。 預設為現有描述。 若要清除描述,請輸入空字串。

tags
必要

要用來更新資料集的標記字典。 這些標記會取代資料集的現有標籤。 預設為現有的標籤。 若要清除標籤,請輸入空的字典。

傳回

類型 Description

更新的資料集物件。

屬性

data_changed_time

傳回來源資料變更的時間。

傳回

類型 Description

最近變更來源資料的時間。

備註

資料變更時間適用于檔案型資料來源。 當資料來源不支援檢查變更發生時,將不會傳回任何專案。

description

傳回註冊描述。

傳回

類型 Description
str

資料集描述。

id

傳回資料集的識別碼。

傳回

類型 Description
str

資料集識別碼。如果資料集未儲存至任何工作區,則識別碼會是 None。

name

傳回註冊名稱。

傳回

類型 Description
str

資料集名稱。

partition_keys

傳回分割區索引鍵。

傳回

類型 Description

分割區索引鍵

tags

傳回註冊標記。

傳回

類型 Description
str

資料集標籤。

version

傳回註冊版本。

傳回

類型 Description
int

資料集版本。