DatasetSnapshot Clase
Administra las instantáneas del conjunto de datos con operaciones para obtener una instantánea, devolver su estado y convertirla en un dataframe.
Nota
Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devuelve un objeto DataSnapshot desde el método create_snapshot de la clase Dataset.
La instantánea del conjunto de datos es una combinación de Profile y una copia materializada opcional de los datos.
Para más información sobre las instantáneas del conjunto de datos, vaya a https://aka.ms/azureml/howto/createsnapshots
- Herencia
-
builtins.objectDatasetSnapshot
Constructor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parámetros
Nombre | Description |
---|---|
workspace
Requerido
|
<xref:azureml.core.Workspace.>
Área de trabajo en la que está registrado el conjunto de datos. |
snapshot_name
Requerido
|
Nombre de la instantánea del conjunto de datos. |
dataset_id
Requerido
|
Identificador del conjunto de datos. |
definition_version
Requerido
|
Versión de definición del conjunto de datos. |
time_stamp
Requerido
|
Hora de creación de la instantánea. |
profile_action_id
Requerido
|
Identificador de acción del perfil de instantánea. |
datastore_name
Requerido
|
Nombre del almacén de datos de instantáneas. |
relative_path
Requerido
|
Ruta de acceso relativa a los datos de instantánea. |
dataset_name
Requerido
|
Nombre del conjunto de datos. |
Métodos
compare_profiles |
Compara el perfil del conjunto de datos actual con el perfil rhs_dataset. Si los perfiles no existen, este método producirá una excepción. |
get |
Obtiene la instantánea del conjunto de datos por nombre de instantánea. |
get_all |
Obtiene todas las instantáneas del conjunto de datos especificado. |
get_profile |
Obtiene el perfil de la instantánea del conjunto de datos. |
get_status |
Obtiene el estado de creación de la instantánea del conjunto de datos. |
is_data_snapshot_available |
Comprueba si la copia materializada de la instantánea está disponible. |
to_pandas_dataframe |
Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea. |
to_spark_dataframe |
Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea. |
wait_for_completion |
Espera a que se complete la generación de DatasetSnapshot. |
compare_profiles
Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.
Si los perfiles no existen, este método producirá una excepción.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parámetros
Nombre | Description |
---|---|
rhs_dataset_snapshot
Requerido
|
Instantánea del conjunto de datos con la que se comparará. |
include_columns
|
Lista de nombres de columnas que se incluirán en la comparación. Valor predeterminado: None
|
exclude_columns
|
Lista de nombres de columnas que se excluirán en la comparación. Valor predeterminado: None
|
histogram_compare_method
|
Enumeración que describe el método de comparación, por ejemplo:WASSERSTEIN o ENERGY. Valor predeterminado: HistogramCompareMethod.WASSERSTEIN
|
Devoluciones
Tipo | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Diferencia entre los perfiles. |
get
Obtiene la instantánea del conjunto de datos por nombre de instantánea.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parámetros
Nombre | Description |
---|---|
workspace
Requerido
|
Área de trabajo en la que está registrado el conjunto de datos. |
snapshot_name
Requerido
|
Nombre de la instantánea del conjunto de datos. |
dataset_name
Requerido
|
Nombre del conjunto de datos. |
dataset_id
Requerido
|
Identificador del conjunto de datos. |
Devoluciones
Tipo | Description |
---|---|
Objeto DatasetSnapshot. |
get_all
Obtiene todas las instantáneas del conjunto de datos especificado.
static get_all(workspace, dataset_name)
Parámetros
Nombre | Description |
---|---|
workspace
Requerido
|
Área de trabajo en la que está registrado el conjunto de datos. |
dataset_name
Requerido
|
Nombre del conjunto de datos. |
Devoluciones
Tipo | Description |
---|---|
Lista de instantáneas del conjuntos de datos. |
get_profile
Obtiene el perfil de la instantánea del conjunto de datos.
get_profile()
Devoluciones
Tipo | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile de la instantánea del conjunto de datos |
get_status
Obtiene el estado de creación de la instantánea del conjunto de datos.
get_status()
Devoluciones
Tipo | Description |
---|---|
Estado de la instantánea del conjunto de datos. |
is_data_snapshot_available
Comprueba si la copia materializada de la instantánea está disponible.
is_data_snapshot_available()
Devoluciones
Tipo | Description |
---|---|
True si la instantánea de datos está disponible. |
to_pandas_dataframe
Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.
to_pandas_dataframe()
Devoluciones
Tipo | Description |
---|---|
Objeto DataFrame de Pandas. |
Comentarios
El objeto DataFrame de Pandas está totalmente materializado en memoria. Si la instantánea se creó con create_data_snapshot=False
, se produce una excepción. Para comprobar si la instantánea contiene datos, use la función is_data_snapshot_available.
to_spark_dataframe
Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.
to_spark_dataframe()
Devoluciones
Tipo | Description |
---|---|
Objeto DataFrame de Spark. |
Comentarios
La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida. Si la instantánea se creó con create_data_snapshot=False
, se produce una excepción al intentar acceder a los datos. Para comprobar si la instantánea contiene datos, use is_data_snapshot_available.
wait_for_completion
Espera a que se complete la generación de DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parámetros
Nombre | Description |
---|---|
show_output
|
Indica si el método imprimirá la salida. Valor predeterminado: True
|
status_update_frequency
|
Frecuencia de actualización del estado de ejecución de la acción en segundos. Valor predeterminado: 10
|
Atributos
dataset_id
Obtiene el identificador del conjunto de datos.
Devoluciones
Tipo | Description |
---|---|
El identificador del conjunto de datos. |
name
Obtiene el nombre de instantánea del conjunto de datos.
Devoluciones
Tipo | Description |
---|---|
Nombre de instantánea del conjunto de datos. |
workspace
Obtiene el área de trabajo de Azure Machine Learning donde está registrado el conjunto de datos.
Devoluciones
Tipo | Description |
---|---|
Área de trabajo donde está registrado el conjunto de datos. |