DatasetDefinition Klasa
Definiuje serię kroków określających sposób odczytywania i przekształcania danych w zestawie danych.
Uwaga
Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zestaw danych zarejestrowany w obszarze roboczym usługi Azure Machine Learning może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.
W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.
Definicje zestawów danych obsługują wszystkie przekształcenia wymienione dla <xref:azureml.dataprep.Dataflow> klasy: zobacz http://aka.ms/azureml/howto/transformdata. Aby dowiedzieć się więcej o definicjach zestawu danych, przejdź do strony https://aka.ms/azureml/howto/versiondata.
Zainicjuj obiekt definicji zestawu danych.
- Dziedziczenie
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
dataset_id
Wymagane
|
Identyfikator zestawu danych. |
version_id
Wymagane
|
Wersja definicji. |
dataflow
Wymagane
|
Obiekt Przepływ danych. |
dataflow_json
Wymagane
|
Plik json przepływu danych. |
notes
Wymagane
|
Opcjonalne informacje o definicji. |
etag
Wymagane
|
Etag. |
created_time
Wymagane
|
Czas tworzenia definicji. |
modified_time
Wymagane
|
Czas ostatniej modyfikacji definicji. |
deprecated_by_dataset_id
Wymagane
|
Identyfikator zestawu danych, który przestarzał tę definicję. |
deprecated_by_definition_version
Wymagane
|
Wersja definicji, która przestarzała tę definicję. |
data_path
Wymagane
|
Ścieżka danych. |
dataset
Wymagane
|
Obiekt nadrzędnego zestawu danych. |
Metody
archive |
Zarchiwizuj definicję zestawu danych. |
create_snapshot |
Utwórz migawkę zarejestrowanego zestawu danych. |
deprecate |
Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych. |
reactivate |
Ponownie uaktywnij definicję zestawu danych. Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane. |
to_pandas_dataframe |
Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych. |
to_spark_dataframe |
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych. |
archive
Zarchiwizuj definicję zestawu danych.
archive()
Zwraca
Typ | Opis |
---|---|
Brak. |
Uwagi
Po archiwizacji każda próba pobrania zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, użyj polecenia reactivate , aby go aktywować.
create_snapshot
Utwórz migawkę zarejestrowanego zestawu danych.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametry
Nazwa | Opis |
---|---|
snapshot_name
Wymagane
|
Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych. |
compute_target
|
ComputeTarget lub
str
Obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane. Domyślna wartość: None
|
create_data_snapshot
|
Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych. Domyślna wartość: False
|
target_datastore
|
Docelowy magazyn danych, w którym ma być zapisywana migawka. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego. Domyślna wartość: None
|
Zwraca
Typ | Opis |
---|---|
Obiekt DatasetSnapshot. |
Uwagi
Migawki przechwytują punkt w podsumowaniu czasu statystyki danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.
deprecate
Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametry
Nazwa | Opis |
---|---|
deprecate_by_dataset_id
Wymagane
|
Identyfikator zestawu danych, który jest odpowiedzialny za wycofanie bieżącego zestawu danych. |
deprecated_by_definition_version
|
Wersja definicji zestawu danych, która jest odpowiedzialna za wycofanie bieżącej definicji zestawu danych. Domyślna wartość: None
|
Zwraca
Typ | Opis |
---|---|
Brak. |
Uwagi
Przestarzałe definicje zestawu danych będą rejestrować ostrzeżenia po ich użyciu. Aby całkowicie zablokować używanie definicji zestawu danych, zarchiwizuj ją.
Jeśli definicja zestawu danych jest przestarzała przypadkowo, użyj reactivate polecenia , aby ją aktywować.
reactivate
Ponownie uaktywnij definicję zestawu danych.
Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.
reactivate()
Zwraca
Typ | Opis |
---|---|
Brak. |
to_pandas_dataframe
Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.
to_pandas_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych Biblioteki Pandas. |
Uwagi
Zwróć ramkę danych Pandas w pełni zmaterializowaną w pamięci.
to_spark_dataframe
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.
to_spark_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych platformy Spark. |
Uwagi
Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są źle oceniane.