DatasetDefinition 類別
定義一系列步驟,指定如何讀取和轉換資料集中的資料。
注意
這個類別已被取代。 如需詳細資訊,請參閱 https://aka.ms/dataset-deprecation 。
在 Azure Machine Learning 工作區中註冊的資料集可以有多個定義,每個定義都是藉由呼叫 update_definition 來建立。 每個定義都有唯一識別碼。 目前的定義是最新建立的定義。
對於未註冊的資料集,只有一個定義存在。
資料集定義支援針對 <xref:azureml.dataprep.Dataflow> 類別列出的所有轉換:請參閱 http://aka.ms/azureml/howto/transformdata 。 若要深入瞭解資料集定義,請移至 https://aka.ms/azureml/howto/versiondata 。
初始化資料集定義物件。
- 繼承
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
建構函式
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
參數
名稱 | Description |
---|---|
workspace
必要
|
資料集註冊所在的工作區。 |
dataset_id
必要
|
資料集識別碼。 |
version_id
必要
|
定義版本。 |
dataflow
必要
|
Dataflow 物件。 |
dataflow_json
必要
|
資料流程 json。 |
notes
必要
|
關於定義的選擇性資訊。 |
etag
必要
|
Etag。 |
created_time
必要
|
定義的建立時間。 |
modified_time
必要
|
定義的上次修改時間。 |
deprecated_by_dataset_id
必要
|
取代此定義的資料集識別碼。 |
deprecated_by_definition_version
必要
|
取代此定義的定義版本。 |
data_path
必要
|
資料路徑。 |
dataset
必要
|
父資料集物件。 |
方法
archive |
封存資料集定義。 |
create_snapshot |
建立已註冊資料集的快照集。 |
deprecate |
使用新資料集的指標取代資料集。 |
reactivate |
重新啟用資料集定義。 適用于已淘汰或封存的資料集定義。 |
to_pandas_dataframe |
執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。 |
to_spark_dataframe |
建立 Spark DataFrame,以執行此資料流程所定義的轉換管線。 |
archive
create_snapshot
建立已註冊資料集的快照集。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
參數
名稱 | Description |
---|---|
snapshot_name
必要
|
快照集名稱。 快照集名稱在資料集內應該是唯一的。 |
compute_target
|
要執行快照集設定檔建立的計算目標。 如果省略,則會使用本機計算。 預設值: None
|
create_data_snapshot
|
如果為 True,則會建立資料的具體化複本。 預設值: False
|
target_datastore
|
要儲存快照集的目標資料存放區。 如果省略,則會在工作區的預設儲存體中建立快照集。 預設值: None
|
傳回
類型 | Description |
---|---|
DatasetSnapshot 物件。 |
備註
快照集擷取基礎資料的時間點摘要統計資料,以及資料本身的選擇性複本。 若要深入瞭解如何建立快照集,請移至 https://aka.ms/azureml/howto/createsnapshots 。
deprecate
使用新資料集的指標取代資料集。
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
參數
名稱 | Description |
---|---|
deprecate_by_dataset_id
必要
|
負責取代目前資料集的資料集識別碼。 |
deprecated_by_definition_version
|
負責取代目前資料集定義的資料集定義版本。 預設值: None
|
傳回
類型 | Description |
---|---|
無。 |
備註
已取代的資料集定義會在取用時記錄警告。 若要完全禁止取用資料集定義,請將其封存。
如果意外取代資料集定義,請使用 reactivate 來啟動它。
reactivate
to_pandas_dataframe
執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。
to_pandas_dataframe()
傳回
類型 | Description |
---|---|
Pandas 資料框架。 |
備註
傳回記憶體中完全具體化的 Pandas DataFrame。
to_spark_dataframe
建立 Spark DataFrame,以執行此資料流程所定義的轉換管線。
to_spark_dataframe()
傳回
類型 | Description |
---|---|
Spark DataFrame。 |
備註
傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。