AbstractDataset Clase

Referencia

Clase base de conjuntos de datos en Azure Machine Learning.

Haga referencia a la clase TabularDatasetFactory y la clase FileDatasetFactory para crear instancias de conjuntos de datos.

Constructor AbstractDataset de clase.

Este constructor no se supone que se invoque directamente. El conjunto de datos está diseñado para crearse mediante TabularDatasetFactory la clase y FileDatasetFactory la clase .

Herencia: builtins.object

AbstractDataset

Constructor

AbstractDataset()

Métodos

add_tags	Agrega pares clave-valor al diccionario de etiquetas de este conjunto de datos.
as_named_input	Se proporciona un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución.
get_all	Obtiene todos los conjuntos de datos registrados del área de trabajo.
get_by_id	Obtiene un conjunto de datos que se guarda en el área de trabajo.
get_by_name	Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro.
get_partition_key_values	Devuelve valores de clave únicos de partition_keys. Valida si partition_keys es un subconjunto válido de un conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, devuelve de forma predeterminada las combinaciones de claves únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es None `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registro del conjunto de datos para el área de trabajo proporcionada.
remove_tags	Quita las claves especificadas del diccionario de etiquetas de este conjunto de datos.
unregister_all_versions	Se anula el registro de todas las versiones con el nombre de registro de este conjunto de datos del área de trabajo.
update	Se realiza una actualización local del conjunto de datos.

add_tags

Agrega pares clave-valor al diccionario de etiquetas de este conjunto de datos.

add_tags(tags=None)

Parámetros

Nombre	Description
tags Requerido	dict[str, str] Diccionario de las etiquetas que se van a agregar.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos actualizado.

as_named_input

Se proporciona un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución.

as_named_input(name)

Parámetros

Nombre	Description
name Requerido	str Nombre del conjunto de datos para la ejecución.

Devoluciones

Tipo	Description
DatasetConsumptionConfig	Objeto de configuración que describe cómo se debe materializar el conjunto de datos en la ejecución.

Comentarios

Este nombre solo será aplicable dentro de una ejecución de Azure Machine Learning. El nombre solo debe contener caracteres alfanuméricos y de subrayado para que pueda estar disponible como una variable de entorno. Puede usar este nombre para recuperar el conjunto de datos en el contexto de una ejecución mediante dos enfoques:

Variable de entorno:

El nombre será el nombre de la variable de entorno y el conjunto de datos materializado estará disponible como el valor de la variable de entorno. Si se descarga o monta el conjunto de datos, el valor será la ruta de acceso de descarga o montaje. Por ejemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Nota

Si el conjunto de datos se establece en modo directo, el valor será el id. del conjunto de datos. A continuación, puede

recuperar el objeto de conjunto de datos mediante Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Se trata de un diccionario donde la clave será el nombre del conjunto de datos que especificó en este método y el valor será el conjunto de datos materializado. Para el conjunto de datos descargado y montado, el valor será la ruta de acceso de descarga o montaje. Para el modo directo, el valor será el mismo objeto de conjunto de datos que especificó en el script de envío del trabajo.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obtiene todos los conjuntos de datos registrados del área de trabajo.

static get_all(workspace)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se registraron los conjuntos de datos.

Devoluciones

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Diccionario de objetos TabularDataset y FileDataset con clave por su nombre de registro.

get_by_id

Obtiene un conjunto de datos que se guarda en el área de trabajo.

static get_by_id(workspace, id, **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se guarda el conjunto de datos.
id Requerido	str Identificador del conjunto de datos.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos. Si se registra el conjunto de datos, también se devolverán el nombre y la versión del registro.

get_by_name

Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro.

static get_by_name(workspace, name, version='latest', **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se registró el conjunto de datos.
name Requerido	str Nombre del registro.
version Requerido	int Versión del registro. El valor predeterminado es "latest".

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos registrado.

get_partition_key_values

Devuelve valores de clave únicos de partition_keys.

Valida si partition_keys es un subconjunto válido de un conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, devuelve de forma predeterminada las combinaciones de claves únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parámetros

Nombre	Description
partition_keys Requerido	list[str] Claves de partición

register

Registro del conjunto de datos para el área de trabajo proporcionada.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo para registrar el conjunto de datos.
name Requerido	str Nombre con el que se registrará el conjunto de datos.
description Requerido	str Texto de descripción del conjunto de datos. El valor predeterminado es None.
tags Requerido	dict[str, str] Diccionario de etiquetas valor-clave para proporcionar el conjunto de datos. El valor predeterminado es None.
create_new_version Requerido	bool Booleano para registrar el conjunto de datos como una nueva versión con el nombre especificado.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos registrado.

remove_tags

Quita las claves especificadas del diccionario de etiquetas de este conjunto de datos.

remove_tags(tags=None)

Parámetros

Nombre	Description
tags Requerido	list[str] Lista de claves que se quitarán.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos actualizado.

unregister_all_versions

Se anula el registro de todas las versiones con el nombre de registro de este conjunto de datos del área de trabajo.

unregister_all_versions()

Comentarios

La operación no cambia ningún dato de origen.

update

Se realiza una actualización local del conjunto de datos.

update(description=None, tags=None)

Parámetros

Nombre	Description
description Requerido	str Nueva descripción que se usará para el conjunto de datos. La descripción reemplaza la descripción existente. El valor predeterminado es la descripción existente. Para borrar la descripción, escriba una cadena vacía.
tags Requerido	dict[str, str] Diccionario de etiquetas con las que actualizar el conjunto de datos. Estas etiquetas reemplazan a las etiquetas existentes para el conjunto de datos. El valor predeterminado es las etiquetas existentes. Para borrar las etiquetas, escriba un diccionario vacío.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos actualizado.

Atributos

data_changed_time

Devuelve la hora del cambio de los datos de origen.

Devoluciones

Tipo	Description
datetime	Hora a la que se produjo el cambio más reciente en los datos de origen.

Comentarios

Está disponible la hora del cambio de los datos para el origen de datos basado en archivos. Se devolverá None cuando no se admita el origen de datos para la comprobación de cuándo se ha producido el cambio.

description

Devuelve la descripción del registro.

Devoluciones

Tipo	Description
str	Descripción del conjunto de datos.

id

Devuelve el identificador del conjunto de datos.

Devoluciones

Tipo	Description
str	Id. de conjunto de datos. Si el conjunto de datos no se guarda en ninguna área de trabajo, el id. será None.

name

Devuelve el nombre del registro.

Devoluciones

Tipo	Description
str	Nombre del conjunto de datos.

partition_keys

Devuelve las claves de partición.

Devoluciones

Tipo	Description
list[str]	Las claves de partición.

Tipo	Description
str	Etiquetas del conjunto de datos.

version

Devuelve la versión de registro.

Devoluciones

Tipo	Description
int	Versión del conjunto de datos.

Compartir a través de

AbstractDataset Clase

Constructor

Métodos

add_tags

Parámetros

Devoluciones

as_named_input

Parámetros

Devoluciones

Comentarios

get_all

Parámetros

Devoluciones

get_by_id

Parámetros

Devoluciones

get_by_name

Parámetros

Devoluciones

get_partition_key_values

Parámetros

register

Parámetros

Devoluciones

remove_tags

Parámetros

Devoluciones

unregister_all_versions

Comentarios

update

Parámetros

Devoluciones

Atributos

data_changed_time

Devoluciones

Comentarios

description

Devoluciones

id

Devoluciones

name

Devoluciones

partition_keys

Devoluciones

tags

Devoluciones

version

Devoluciones

Comentarios

Recursos adicionales