DatasetSnapshot Klasa
Zarządza migawkami zestawu danych za pomocą operacji, aby uzyskać przystawkę, zwrócić jej stan i przekonwertować ją na ramkę danych.
Uwaga
Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Obiekt DataSnapshot jest zwracany z create_snapshot metody Dataset klasy .
Migawka zestawu danych to kombinacja profilu i opcjonalnej zmaterializowanej kopii danych.
Aby dowiedzieć się więcej na temat migawek zestawów danych, przejdź do strony https://aka.ms/azureml/howto/createsnapshots
- Dziedziczenie
-
builtins.objectDatasetSnapshot
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
<xref:azureml.core.Workspace.>
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
snapshot_name
Wymagane
|
Nazwa migawki zestawu danych. |
dataset_id
Wymagane
|
Identyfikator zestawu danych. |
definition_version
Wymagane
|
Wersja definicji zestawu danych. |
time_stamp
Wymagane
|
Czas tworzenia migawki. |
profile_action_id
Wymagane
|
Identyfikator akcji profilu migawki. |
datastore_name
Wymagane
|
Nazwa magazynu danych migawek. |
relative_path
Wymagane
|
Ścieżka względna do danych migawki. |
dataset_name
Wymagane
|
Nazwa zestawu danych. |
Metody
compare_profiles |
Porównaj bieżący profil zestawu danych z profilem rhs_dataset. Jeśli profile nie istnieją, ta metoda zgłosi wyjątek. |
get |
Pobierz migawkę zestawu danych według nazwy migawki. |
get_all |
Pobierz wszystkie migawki danego zestawu danych. |
get_profile |
Pobierz profil migawki zestawu danych. |
get_status |
Pobierz stan tworzenia migawki zestawu danych. |
is_data_snapshot_available |
Sprawdź, czy zmaterializowana kopia migawki jest dostępna. |
to_pandas_dataframe |
Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki. |
to_spark_dataframe |
Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki. |
wait_for_completion |
Poczekaj na ukończenie generowania zestawu danychSnapshot. |
compare_profiles
Porównaj bieżący profil zestawu danych z profilem rhs_dataset.
Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametry
Nazwa | Opis |
---|---|
rhs_dataset_snapshot
Wymagane
|
Migawka zestawu danych do porównania. |
include_columns
|
Lista nazw kolumn do ujęć w porównaniu. Domyślna wartość: None
|
exclude_columns
|
Lista nazw kolumn, które mają być wykluczone w porównaniu. Domyślna wartość: None
|
histogram_compare_method
|
Wyliczenie opisujące metodę porównania, na przykład: WASSERSTEIN lub ENERGY. Domyślna wartość: HistogramCompareMethod.WASSERSTEIN
|
Zwraca
Typ | Opis |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Różnica między profilami. |
get
Pobierz migawkę zestawu danych według nazwy migawki.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
snapshot_name
Wymagane
|
Nazwa migawki zestawu danych. |
dataset_name
Wymagane
|
Nazwa zestawu danych. |
dataset_id
Wymagane
|
Identyfikator zestawu danych. |
Zwraca
Typ | Opis |
---|---|
Obiekt DatasetSnapshot. |
get_all
Pobierz wszystkie migawki danego zestawu danych.
static get_all(workspace, dataset_name)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
dataset_name
Wymagane
|
Nazwa zestawu danych. |
Zwraca
Typ | Opis |
---|---|
Lista migawek zestawu danych |
get_profile
Pobierz profil migawki zestawu danych.
get_profile()
Zwraca
Typ | Opis |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Plik DataProfile migawki zestawu danych |
get_status
Pobierz stan tworzenia migawki zestawu danych.
get_status()
Zwraca
Typ | Opis |
---|---|
Stan migawki zestawu danych. |
is_data_snapshot_available
Sprawdź, czy zmaterializowana kopia migawki jest dostępna.
is_data_snapshot_available()
Zwraca
Typ | Opis |
---|---|
Wartość True, jeśli migawka danych jest dostępna. |
to_pandas_dataframe
Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.
to_pandas_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych biblioteki Pandas. |
Uwagi
Ramka danych biblioteki Pandas jest w pełni zmaterializowana w pamięci. Jeśli migawka została utworzona za pomocą create_data_snapshot=False
polecenia , zgłaszany jest wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj funkcji is_data_snapshot_available.
to_spark_dataframe
Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.
to_spark_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych platformy Spark. |
Uwagi
Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem. Jeśli migawka została utworzona za pomocą create_data_snapshot=False
polecenia , podczas próby uzyskania dostępu do danych jest zgłaszany wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj polecenia is_data_snapshot_available.
wait_for_completion
Poczekaj na ukończenie generowania zestawu danychSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametry
Nazwa | Opis |
---|---|
show_output
|
Wskazuje, czy metoda wyświetli dane wyjściowe. Domyślna wartość: True
|
status_update_frequency
|
Częstotliwość aktualizacji stanu uruchomienia akcji w sekundach. Domyślna wartość: 10
|
Atrybuty
dataset_id
name
workspace
Pobierz obszar roboczy usługi Azure Machine Learning, w którym zarejestrowano zestaw danych.
Zwraca
Typ | Opis |
---|---|
Obszar roboczy, w którym zarejestrowano zestaw danych. |