Compartir a través de


DatasetSnapshot Clase

Administra las instantáneas del conjunto de datos con operaciones para obtener una instantánea, devolver su estado y convertirla en un dataframe.

Nota

Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

Devuelve un objeto DataSnapshot desde el método create_snapshot de la clase Dataset.

La instantánea del conjunto de datos es una combinación de Profile y una copia materializada opcional de los datos.

Para más información sobre las instantáneas del conjunto de datos, vaya a https://aka.ms/azureml/howto/createsnapshots

Herencia
builtins.object
DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parámetros

Nombre Description
workspace
Requerido
<xref:azureml.core.Workspace.>

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name
Requerido
str

Nombre de la instantánea del conjunto de datos.

dataset_id
Requerido
str

Identificador del conjunto de datos.

definition_version
Requerido
str

Versión de definición del conjunto de datos.

time_stamp
Requerido

Hora de creación de la instantánea.

profile_action_id
Requerido
str

Identificador de acción del perfil de instantánea.

datastore_name
Requerido
str

Nombre del almacén de datos de instantáneas.

relative_path
Requerido
str

Ruta de acceso relativa a los datos de instantánea.

dataset_name
Requerido
str

Nombre del conjunto de datos.

Métodos

compare_profiles

Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.

Si los perfiles no existen, este método producirá una excepción.

get

Obtiene la instantánea del conjunto de datos por nombre de instantánea.

get_all

Obtiene todas las instantáneas del conjunto de datos especificado.

get_profile

Obtiene el perfil de la instantánea del conjunto de datos.

get_status

Obtiene el estado de creación de la instantánea del conjunto de datos.

is_data_snapshot_available

Comprueba si la copia materializada de la instantánea está disponible.

to_pandas_dataframe

Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.

to_spark_dataframe

Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.

wait_for_completion

Espera a que se complete la generación de DatasetSnapshot.

compare_profiles

Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.

Si los perfiles no existen, este método producirá una excepción.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parámetros

Nombre Description
rhs_dataset_snapshot
Requerido

Instantánea del conjunto de datos con la que se comparará.

include_columns

Lista de nombres de columnas que se incluirán en la comparación.

Valor predeterminado: None
exclude_columns

Lista de nombres de columnas que se excluirán en la comparación.

Valor predeterminado: None
histogram_compare_method

Enumeración que describe el método de comparación, por ejemplo:WASSERSTEIN o ENERGY.

Valor predeterminado: HistogramCompareMethod.WASSERSTEIN

Devoluciones

Tipo Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Diferencia entre los perfiles.

get

Obtiene la instantánea del conjunto de datos por nombre de instantánea.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parámetros

Nombre Description
workspace
Requerido

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name
Requerido
str

Nombre de la instantánea del conjunto de datos.

dataset_name
Requerido

Nombre del conjunto de datos.

dataset_id
Requerido

Identificador del conjunto de datos.

Devoluciones

Tipo Description

Objeto DatasetSnapshot.

get_all

Obtiene todas las instantáneas del conjunto de datos especificado.

static get_all(workspace, dataset_name)

Parámetros

Nombre Description
workspace
Requerido

Área de trabajo en la que está registrado el conjunto de datos.

dataset_name
Requerido

Nombre del conjunto de datos.

Devoluciones

Tipo Description

Lista de instantáneas del conjuntos de datos.

get_profile

Obtiene el perfil de la instantánea del conjunto de datos.

get_profile()

Devoluciones

Tipo Description
<xref:azureml.dataprep.DataProfile>

DataProfile de la instantánea del conjunto de datos

get_status

Obtiene el estado de creación de la instantánea del conjunto de datos.

get_status()

Devoluciones

Tipo Description
str

Estado de la instantánea del conjunto de datos.

is_data_snapshot_available

Comprueba si la copia materializada de la instantánea está disponible.

is_data_snapshot_available()

Devoluciones

Tipo Description

True si la instantánea de datos está disponible.

to_pandas_dataframe

Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.

to_pandas_dataframe()

Devoluciones

Tipo Description

Objeto DataFrame de Pandas.

Comentarios

El objeto DataFrame de Pandas está totalmente materializado en memoria. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción. Para comprobar si la instantánea contiene datos, use la función is_data_snapshot_available.

to_spark_dataframe

Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.

to_spark_dataframe()

Devoluciones

Tipo Description

Objeto DataFrame de Spark.

Comentarios

La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción al intentar acceder a los datos. Para comprobar si la instantánea contiene datos, use is_data_snapshot_available.

wait_for_completion

Espera a que se complete la generación de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parámetros

Nombre Description
show_output

Indica si el método imprimirá la salida.

Valor predeterminado: True
status_update_frequency
int

Frecuencia de actualización del estado de ejecución de la acción en segundos.

Valor predeterminado: 10

Atributos

dataset_id

Obtiene el identificador del conjunto de datos.

Devoluciones

Tipo Description
str

El identificador del conjunto de datos.

name

Obtiene el nombre de instantánea del conjunto de datos.

Devoluciones

Tipo Description
str

Nombre de instantánea del conjunto de datos.

workspace

Obtiene el área de trabajo de Azure Machine Learning donde está registrado el conjunto de datos.

Devoluciones

Tipo Description

Área de trabajo donde está registrado el conjunto de datos.