Udostępnij za pośrednictwem


DatasetDefinition Klasa

Definiuje serię kroków określających sposób odczytywania i przekształcania danych w zestawie danych.

Uwaga

Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zestaw danych zarejestrowany w obszarze roboczym usługi Azure Machine Learning może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

Definicje zestawów danych obsługują wszystkie przekształcenia wymienione dla <xref:azureml.dataprep.Dataflow> klasy: zobacz http://aka.ms/azureml/howto/transformdata. Aby dowiedzieć się więcej o definicjach zestawu danych, przejdź do strony https://aka.ms/azureml/howto/versiondata.

Zainicjuj obiekt definicji zestawu danych.

Dziedziczenie
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

Nazwa Opis
workspace
Wymagane
str

Obszar roboczy, w który jest zarejestrowany zestaw danych.

dataset_id
Wymagane
str

Identyfikator zestawu danych.

version_id
Wymagane
str

Wersja definicji.

dataflow
Wymagane
str

Obiekt Przepływ danych.

dataflow_json
Wymagane

Plik json przepływu danych.

notes
Wymagane
str

Opcjonalne informacje o definicji.

etag
Wymagane
str

Etag.

created_time
Wymagane

Czas tworzenia definicji.

modified_time
Wymagane

Czas ostatniej modyfikacji definicji.

deprecated_by_dataset_id
Wymagane
str

Identyfikator zestawu danych, który przestarzał tę definicję.

deprecated_by_definition_version
Wymagane
str

Wersja definicji, która przestarzała tę definicję.

data_path
Wymagane

Ścieżka danych.

dataset
Wymagane

Obiekt nadrzędnego zestawu danych.

Metody

archive

Zarchiwizuj definicję zestawu danych.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

deprecate

Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.

reactivate

Ponownie uaktywnij definicję zestawu danych.

Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.

to_pandas_dataframe

Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

archive

Zarchiwizuj definicję zestawu danych.

archive()

Zwraca

Typ Opis

Brak.

Uwagi

Po archiwizacji każda próba pobrania zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, użyj polecenia reactivate , aby go aktywować.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

Nazwa Opis
snapshot_name
Wymagane
str

Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych.

compute_target

Obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane.

Domyślna wartość: None
create_data_snapshot

Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych.

Domyślna wartość: False
target_datastore

Docelowy magazyn danych, w którym ma być zapisywana migawka. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego.

Domyślna wartość: None

Zwraca

Typ Opis

Obiekt DatasetSnapshot.

Uwagi

Migawki przechwytują punkt w podsumowaniu czasu statystyki danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.

deprecate

Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

Nazwa Opis
deprecate_by_dataset_id
Wymagane

Identyfikator zestawu danych, który jest odpowiedzialny za wycofanie bieżącego zestawu danych.

deprecated_by_definition_version
str

Wersja definicji zestawu danych, która jest odpowiedzialna za wycofanie bieżącej definicji zestawu danych.

Domyślna wartość: None

Zwraca

Typ Opis

Brak.

Uwagi

Przestarzałe definicje zestawu danych będą rejestrować ostrzeżenia po ich użyciu. Aby całkowicie zablokować używanie definicji zestawu danych, zarchiwizuj ją.

Jeśli definicja zestawu danych jest przestarzała przypadkowo, użyj reactivate polecenia , aby ją aktywować.

reactivate

Ponownie uaktywnij definicję zestawu danych.

Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.

reactivate()

Zwraca

Typ Opis

Brak.

to_pandas_dataframe

Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

to_pandas_dataframe()

Zwraca

Typ Opis

Ramka danych Biblioteki Pandas.

Uwagi

Zwróć ramkę danych Pandas w pełni zmaterializowaną w pamięci.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

to_spark_dataframe()

Zwraca

Typ Opis

Ramka danych platformy Spark.

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są źle oceniane.