Partager via


DatasetSnapshot Classe

Gère les instantanés du jeu de données avec des opérations pour obtenir un instantané, retourner son état et le convertir en dataframe.

Notes

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un objet DataSnapshot est retourné à partir de la méthode create_snapshot de la classe Dataset.

Le jeu de données instantané est une combinaison de Profil et d’une copie matérialisée facultative des données.

Pour en savoir plus sur les instantanés de jeux de données, accédez à https://aka.ms/azureml/howto/createsnapshots

Héritage
builtins.object
DatasetSnapshot

Constructeur

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Paramètres

Nom Description
workspace
Obligatoire
<xref:azureml.core.Workspace.>

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
Obligatoire
str

Nom de l’instantané du jeu de données.

dataset_id
Obligatoire
str

Identificateur du jeu de données.

definition_version
Obligatoire
str

Version de définition du jeu de données.

time_stamp
Obligatoire

Heure de création instantané.

profile_action_id
Obligatoire
str

ID d’action de profil instantané.

datastore_name
Obligatoire
str

Nom du magasin de données instantané.

relative_path
Obligatoire
str

Chemin d’accès relatif aux données instantané.

dataset_name
Obligatoire
str

Nom du jeu de données.

Méthodes

compare_profiles

Compare le profil du jeu de données actuel au profil rhs_dataset.

Si les profils n’existent pas, cette méthode lève une exception.

get

Obtient l’instantané du jeu de données à partir de son nom.

get_all

Obtient tous les instantanés du jeu de données en question.

get_profile

Obtient le profil de l’instantané du jeu de données.

get_status

Obtient l’état de création de l’instantané du jeu de données.

is_data_snapshot_available

Vérifie si la copie matérialisée de l’instantané est disponible.

to_pandas_dataframe

Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe

Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

wait_for_completion

Attend la fin de la génération de DatasetSnapshot.

compare_profiles

Compare le profil du jeu de données actuel au profil rhs_dataset.

Si les profils n’existent pas, cette méthode lève une exception.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paramètres

Nom Description
rhs_dataset_snapshot
Obligatoire

Instantané de jeu de données avec lequel effectuer la comparaison.

include_columns

Liste des noms de colonnes à inclure dans la comparaison.

Valeur par défaut: None
exclude_columns

Liste des noms de colonnes à exclure de la comparaison.

Valeur par défaut: None
histogram_compare_method

Enum décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY.

Valeur par défaut: HistogramCompareMethod.WASSERSTEIN

Retours

Type Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Différence entre les profils.

get

Obtient l’instantané du jeu de données à partir de son nom.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
Obligatoire
str

Nom de l’instantané du jeu de données.

dataset_name
Obligatoire

Nom du jeu de données.

dataset_id
Obligatoire

Identificateur du jeu de données.

Retours

Type Description

Objet DatasetSnapshot.

get_all

Obtient tous les instantanés du jeu de données en question.

static get_all(workspace, dataset_name)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

dataset_name
Obligatoire

Nom du jeu de données.

Retours

Type Description

Liste des instantanés du jeu de données

get_profile

Obtient le profil de l’instantané du jeu de données.

get_profile()

Retours

Type Description
<xref:azureml.dataprep.DataProfile>

DataProfile de l’instantané du jeu de données

get_status

Obtient l’état de création de l’instantané du jeu de données.

get_status()

Retours

Type Description
str

État de l’instantané du jeu de données.

is_data_snapshot_available

Vérifie si la copie matérialisée de l’instantané est disponible.

is_data_snapshot_available()

Retours

Type Description

Valeur true si l’instantané des données est disponible.

to_pandas_dataframe

Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_pandas_dataframe()

Retours

Type Description

DataFrame Pandas.

Remarques

Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.

to_spark_dataframe

Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe()

Retours

Type Description

DataFrame Spark.

Remarques

Le DataFrame Spark retourné n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car Dataframes Spark sont évalués en différé. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.

wait_for_completion

Attend la fin de la génération de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Paramètres

Nom Description
show_output

Indique si la méthode doit imprimer la sortie.

Valeur par défaut: True
status_update_frequency
int

Fréquence de mise à jour de l’état d’exécution de l’action en secondes.

Valeur par défaut: 10

Attributs

dataset_id

Obtient l’identificateur du jeu de données.

Retours

Type Description
str

ID du jeu de données.

name

Obtient le nom de l’instantané du jeu de données.

Retours

Type Description
str

Nom de l’instantané du jeu de données.

workspace

Obtient l’espace de travail Azure Machine Learning où le jeu de données est inscrit.

Retours

Type Description

Espace de travail où le jeu de données est inscrit.