AbstractDataset 類別
Azure Machine Learning 中資料集的基類。
請參考 TabularDatasetFactory 類別和 FileDatasetFactory 類別,以建立資料集的實例。
類別 AbstractDataset 建構函式。
此建構函式不應該直接叫用。 資料集旨在使用 TabularDatasetFactory 類別和 FileDatasetFactory 類別來建立。
- 繼承
-
builtins.objectAbstractDataset
建構函式
AbstractDataset()
方法
add_tags |
將索引鍵值組新增至此資料集的標記字典。 |
as_named_input |
提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。 |
get_all |
取得工作區中的所有已註冊資料集。 |
get_by_id |
取得儲存至工作區的資料集。 |
get_by_name |
依註冊名稱從工作區取得已註冊的資料集。 |
get_partition_key_values |
傳回partition_keys的唯一索引鍵值。 驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。
|
register |
向提供的工作區註冊資料集。 |
remove_tags |
從此資料集的標記字典中移除指定的索引鍵。 |
unregister_all_versions |
從工作區取消註冊此資料集註冊名稱下的所有版本。 |
update |
執行資料集的就地更新。 |
add_tags
將索引鍵值組新增至此資料集的標記字典。
add_tags(tags=None)
參數
名稱 | Description |
---|---|
tags
必要
|
要加入之標籤的字典。 |
傳回
類型 | Description |
---|---|
更新的資料集物件。 |
as_named_input
提供此資料集的名稱,此資料集將用來擷取執行中的具體化資料集。
as_named_input(name)
參數
名稱 | Description |
---|---|
name
必要
|
執行之資料集的名稱。 |
傳回
類型 | Description |
---|---|
組態物件,描述如何在執行中具體化資料集。 |
備註
此處的名稱僅適用于 Azure Machine Learning 執行。 名稱只能包含英數位元和底線字元,因此可以做為環境變數使用。 您可以使用下列兩種方法來擷取執行內容中的資料集:
環境變數:
此名稱會是環境變數名稱,而具體化資料集將可做為環境變數的值。 如果資料集已下載或掛接,此值將會是已下載/掛接的路徑。 例如:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
注意
如果資料集設定為直接模式,則此值會是資料集識別碼。 然後,您可以
執行 Dataset.get_by_id (os.environ['foo']) 來擷取資料集物件
Run.input_datasets:
這是字典,其中索引鍵會是您在此方法中指定的資料集名稱,而值將會是具體化的資料集。 針對已下載和掛接的資料集,此值會是已下載/掛接的路徑。 針對直接模式,此值會與您在作業提交腳本中指定的資料集物件相同。
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
取得工作區中的所有已註冊資料集。
static get_all(workspace)
參數
名稱 | Description |
---|---|
workspace
必要
|
已註冊資料集的現有 AzureML 工作區。 |
傳回
類型 | Description |
---|---|
TabularDataset 和 FileDataset 物件的字典,以其註冊名稱為索引鍵。 |
get_by_id
取得儲存至工作區的資料集。
static get_by_id(workspace, id, **kwargs)
參數
名稱 | Description |
---|---|
workspace
必要
|
儲存資料集的現有 AzureML 工作區。 |
id
必要
|
資料集的識別碼。 |
傳回
類型 | Description |
---|---|
資料集物件。 如果已註冊資料集,也會傳回其註冊名稱和版本。 |
get_by_name
依註冊名稱從工作區取得已註冊的資料集。
static get_by_name(workspace, name, version='latest', **kwargs)
參數
名稱 | Description |
---|---|
workspace
必要
|
已註冊資料集的現有 AzureML 工作區。 |
name
必要
|
註冊名稱。 |
version
必要
|
註冊版本。 預設為 'latest'。 |
傳回
類型 | Description |
---|---|
已註冊的資料集物件。 |
get_partition_key_values
傳回partition_keys的唯一索引鍵值。
驗證partition_keys是否為完整分割區索引鍵集的有效子集、傳回唯一索引鍵值partition_keys,如果partition_keys為 None,預設會傳回唯一索引鍵組合。
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
參數
名稱 | Description |
---|---|
partition_keys
必要
|
分割區索引鍵 |
register
向提供的工作區註冊資料集。
register(workspace, name, description=None, tags=None, create_new_version=False)
參數
名稱 | Description |
---|---|
workspace
必要
|
要註冊資料集的工作區。 |
name
必要
|
要註冊資料集的名稱。 |
description
必要
|
資料集的文字描述。 預設為 [無]。 |
tags
必要
|
索引鍵值標籤的字典,以提供資料集。 預設為 [無]。 |
create_new_version
必要
|
布林值,以在指定的名稱下將資料集註冊為新版本。 |
傳回
類型 | Description |
---|---|
已註冊的資料集物件。 |
remove_tags
從此資料集的標記字典中移除指定的索引鍵。
remove_tags(tags=None)
參數
名稱 | Description |
---|---|
tags
必要
|
要移除的索引鍵清單。 |
傳回
類型 | Description |
---|---|
更新的資料集物件。 |
unregister_all_versions
從工作區取消註冊此資料集註冊名稱下的所有版本。
unregister_all_versions()
備註
此作業不會變更任何來源資料。
update
執行資料集的就地更新。
update(description=None, tags=None)
參數
名稱 | Description |
---|---|
description
必要
|
要用於資料集的新描述。 此描述會取代現有的描述。 預設為現有描述。 若要清除描述,請輸入空字串。 |
tags
必要
|
要用來更新資料集的標記字典。 這些標記會取代資料集的現有標籤。 預設為現有的標籤。 若要清除標籤,請輸入空的字典。 |
傳回
類型 | Description |
---|---|
更新的資料集物件。 |
屬性
data_changed_time
傳回來源資料變更的時間。
傳回
類型 | Description |
---|---|
最近變更來源資料的時間。 |
備註
資料變更時間適用于檔案型資料來源。 當資料來源不支援檢查變更發生時,將不會傳回任何專案。