DatasetSnapshot Classe
Gère les instantanés du jeu de données avec des opérations pour obtenir un instantané, retourner son état et le convertir en dataframe.
Notes
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un objet DataSnapshot est retourné à partir de la méthode create_snapshot de la classe Dataset.
Le jeu de données instantané est une combinaison de Profil et d’une copie matérialisée facultative des données.
Pour en savoir plus sur les instantanés de jeux de données, accédez à https://aka.ms/azureml/howto/createsnapshots
- Héritage
-
builtins.objectDatasetSnapshot
Constructeur
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
<xref:azureml.core.Workspace.>
Espace de travail dans lequel le jeu de données est inscrit. |
snapshot_name
Obligatoire
|
Nom de l’instantané du jeu de données. |
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
definition_version
Obligatoire
|
Version de définition du jeu de données. |
time_stamp
Obligatoire
|
Heure de création instantané. |
profile_action_id
Obligatoire
|
ID d’action de profil instantané. |
datastore_name
Obligatoire
|
Nom du magasin de données instantané. |
relative_path
Obligatoire
|
Chemin d’accès relatif aux données instantané. |
dataset_name
Obligatoire
|
Nom du jeu de données. |
Méthodes
compare_profiles |
Compare le profil du jeu de données actuel au profil rhs_dataset. Si les profils n’existent pas, cette méthode lève une exception. |
get |
Obtient l’instantané du jeu de données à partir de son nom. |
get_all |
Obtient tous les instantanés du jeu de données en question. |
get_profile |
Obtient le profil de l’instantané du jeu de données. |
get_status |
Obtient l’état de création de l’instantané du jeu de données. |
is_data_snapshot_available |
Vérifie si la copie matérialisée de l’instantané est disponible. |
to_pandas_dataframe |
Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané. |
to_spark_dataframe |
Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané. |
wait_for_completion |
Attend la fin de la génération de DatasetSnapshot. |
compare_profiles
Compare le profil du jeu de données actuel au profil rhs_dataset.
Si les profils n’existent pas, cette méthode lève une exception.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paramètres
Nom | Description |
---|---|
rhs_dataset_snapshot
Obligatoire
|
Instantané de jeu de données avec lequel effectuer la comparaison. |
include_columns
|
Liste des noms de colonnes à inclure dans la comparaison. Valeur par défaut: None
|
exclude_columns
|
Liste des noms de colonnes à exclure de la comparaison. Valeur par défaut: None
|
histogram_compare_method
|
Enum décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY. Valeur par défaut: HistogramCompareMethod.WASSERSTEIN
|
Retours
Type | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Différence entre les profils. |
get
Obtient l’instantané du jeu de données à partir de son nom.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail dans lequel le jeu de données est inscrit. |
snapshot_name
Obligatoire
|
Nom de l’instantané du jeu de données. |
dataset_name
Obligatoire
|
Nom du jeu de données. |
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
Retours
Type | Description |
---|---|
Objet DatasetSnapshot. |
get_all
Obtient tous les instantanés du jeu de données en question.
static get_all(workspace, dataset_name)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail dans lequel le jeu de données est inscrit. |
dataset_name
Obligatoire
|
Nom du jeu de données. |
Retours
Type | Description |
---|---|
Liste des instantanés du jeu de données |
get_profile
Obtient le profil de l’instantané du jeu de données.
get_profile()
Retours
Type | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile de l’instantané du jeu de données |
get_status
Obtient l’état de création de l’instantané du jeu de données.
get_status()
Retours
Type | Description |
---|---|
État de l’instantané du jeu de données. |
is_data_snapshot_available
Vérifie si la copie matérialisée de l’instantané est disponible.
is_data_snapshot_available()
Retours
Type | Description |
---|---|
Valeur true si l’instantané des données est disponible. |
to_pandas_dataframe
Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.
to_pandas_dataframe()
Retours
Type | Description |
---|---|
DataFrame Pandas. |
Remarques
Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False
, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.
to_spark_dataframe
Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.
to_spark_dataframe()
Retours
Type | Description |
---|---|
DataFrame Spark. |
Remarques
Le DataFrame Spark retourné n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car Dataframes Spark sont évalués en différé. Si l’instantané a été créé avec create_data_snapshot=False
, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.
wait_for_completion
Attend la fin de la génération de DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Paramètres
Nom | Description |
---|---|
show_output
|
Indique si la méthode doit imprimer la sortie. Valeur par défaut: True
|
status_update_frequency
|
Fréquence de mise à jour de l’état d’exécution de l’action en secondes. Valeur par défaut: 10
|
Attributs
dataset_id
name
Obtient le nom de l’instantané du jeu de données.
Retours
Type | Description |
---|---|
Nom de l’instantané du jeu de données. |
workspace
Obtient l’espace de travail Azure Machine Learning où le jeu de données est inscrit.
Retours
Type | Description |
---|---|
Espace de travail où le jeu de données est inscrit. |