Sdílet prostřednictvím


DatasetDefinition Třída

Definuje řadu kroků, které určují, jak číst a transformovat data v datové sadě.

Poznámka

Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Datová sada zaregistrovaná v pracovním prostoru Azure Machine Learning může mít několik definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice.

Pro neregistrované datové sady existuje pouze jedna definice.

Definice datových sad podporují všechny transformace uvedené pro <xref:azureml.dataprep.Dataflow> třídu: viz http://aka.ms/azureml/howto/transformdata. Další informace o definicích datových sad najdete na .https://aka.ms/azureml/howto/versiondata

Inicializujte objekt definice datové sady.

Dědičnost
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

Name Description
workspace
Vyžadováno
str

Pracovní prostor, ve který je datová sada zaregistrovaná.

dataset_id
Vyžadováno
str

Identifikátor datové sady.

version_id
Vyžadováno
str

Verze definice.

dataflow
Vyžadováno
str

Objekt toku dat.

dataflow_json
Vyžadováno

Kód JSON toku dat.

notes
Vyžadováno
str

Volitelné informace o definici.

etag
Vyžadováno
str

Etag.

created_time
Vyžadováno

Čas vytvoření definice.

modified_time
Vyžadováno

Čas poslední změny definice.

deprecated_by_dataset_id
Vyžadováno
str

ID datové sady, která tuto definici zastarává.

deprecated_by_definition_version
Vyžadováno
str

Verze definice, která tuto definici zastarává.

data_path
Vyžadováno

Cesta k datům.

dataset
Vyžadováno

Nadřazený objekt Dataset.

Metody

archive

Archivace definice datové sady

create_snapshot

Vytvořte snímek registrované datové sady.

deprecate

Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.

reactivate

Znovu aktivujte definici datové sady.

Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

archive

Archivace definice datové sady

archive()

Návraty

Typ Description

Žádné

Poznámky

Po archivaci dojde při každém pokusu o načtení datové sady k chybě. Pokud se archivuje omylem, aktivujte ho pomocí příkazu reactivate .

create_snapshot

Vytvořte snímek registrované datové sady.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

Name Description
snapshot_name
Vyžadováno
str

Název snímku. Názvy snímků by měly být v rámci datové sady jedinečné.

compute_target

Cílový výpočetní objekt pro vytvoření profilu snímku. Pokud tento parametr vynecháte, použije se místní výpočetní prostředí.

Default value: None
create_data_snapshot

Pokud má hodnotu True, vytvoří se materializovaná kopie dat.

Default value: False
target_datastore

Cílové úložiště dat, kam chcete uložit snímek. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru.

Default value: None

Návraty

Typ Description

A DatasetSnapshot objekt.

Poznámky

Snímky zachycují souhrnnou statistiku k určitému bodu v čase podkladových dat a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete na .https://aka.ms/azureml/howto/createsnapshots

deprecate

Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

Name Description
deprecate_by_dataset_id
Vyžadováno

ID datové sady, které je zodpovědné za vyřazení aktuální datové sady.

deprecated_by_definition_version
str

Verze definice datové sady, která je zodpovědná za vyřazení aktuální definice datové sady.

Default value: None

Návraty

Typ Description

Žádné

Poznámky

Zastaralé definice datových sad budou protokolovat upozornění při jejich spotřebování. Pokud chcete zcela zablokovat využití definice datové sady, archivujte ji.

Pokud je definice datové sady omylem zastaralá, aktivujte ji pomocí příkazu reactivate .

reactivate

Znovu aktivujte definici datové sady.

Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.

reactivate()

Návraty

Typ Description

Žádné

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

to_pandas_dataframe()

Návraty

Typ Description

Datový rámec Pandas.

Poznámky

Vrátí datový rámec Pandas plně materializovaný v paměti.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

to_spark_dataframe()

Návraty

Typ Description

Datový rámec Sparku.

Poznámky

Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.