Compartir a través de


data Paquete

Contiene módulos que admiten la representación de los datos del almacén de datos y el conjunto de datos en Azure Machine Learning.

Este paquete contiene funcionalidad básica que admite las clases Datastore y Dataset del paquete core. Los objetos de almacén de datos contienen información sobre la conexión a los servicios de almacenamiento de Azure que se puede consultar fácilmente por nombre sin necesidad de trabajar directamente con esta información en los scripts ni tener que codificar de forma rígida. El almacén de datos admite una serie de servicios diferentes que están representados por las clases de este paquete, incluidos AzureBlobDatastore, AzureFileDatastore y AzureDataLakeDatastore. Para obtener una lista completa de los servicios de almacenamiento admitidos, consulte la clase Datastore.

Mientras que un almacén de datos actúa como contenedor para los archivos de datos, puede considerar un conjunto de datos como una referencia o un puntero a datos específicos que se encuentran en el almacén de datos. Se admiten los siguientes tipos de conjuntos de datos:

  • TabularDataset representa los datos en formato tabular que se crean mediante el análisis del archivo o la lista de archivos proporcionados.

  • FileDataset hace referencia a uno o varios archivos de los almacenes de datos o direcciones URL públicas.

Para más información, consulte el artículo Incorporación de & registrar conjuntos de datos. Para empezar a trabajar con conjuntos de datos, consulte https://aka.ms/tabulardataset-samplenotebook y https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset

Contiene la clase base abstracta para los conjuntos de datos de Azure Machine Learning.

abstract_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en los servicios de almacenamiento de Azure.

azure_data_lake_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en Azure Data Lake Storage.

azure_my_sql_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en Azure Database for MySQL.

azure_postgre_sql_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en Azure Database for PostgreSQL.

azure_sql_database_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en Azure SQL Database.

azure_storage_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión en Azure Blob Storage y Azure File Storage.

constants

Constantes usadas en el paquete azureml.data. Exclusivamente para uso interno.

context_managers

Contiene funcionalidad para administrar el contexto de datos de los almacenes y los conjuntos de datos. Exclusivamente para uso interno.

data_reference

Contiene funcionalidad que define cómo crear referencias a datos de almacenes de datos.

datacache

Contiene funcionalidad para administrar DatacacheStore y Datacache en Azure Machine Learning.

datacache_client

Solo para uso interno.

datacache_consumption_config

Contiene la funcionalidad para la configuración del consumo del conjunto de datos.

datacache_singularity_settings

Contiene objetos necesarios para la representación de la configuración de la singularidad de Datacache.

datapath

Contiene funcionalidad para crear referencias a datos de almacenes de datos.

Este módulo contiene la clase DataPath, que representa la ubicación de los datos, y la clase DataPathComputeBinding, que representa cómo los datos están disponibles en los destinos de proceso.

dataset_action_run

Contiene funcionalidad que administra la ejecución de acciones del conjunto de datos.

Este módulo proporciona métodos prácticos para crear acciones de conjunto de datos y obtener sus resultados después de la finalización.

dataset_consumption_config

Contiene la funcionalidad para la configuración del consumo del conjunto de datos.

dataset_definition

Contiene funcionalidad para administrar la definición del conjunto de datos y sus operaciones.

Nota

Este módulo está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

dataset_error_handling

Contiene excepciones para el control de errores del conjunto de datos de Azure Machine Learning.

dataset_factory

Contiene funcionalidad para crear conjuntos de datos para Azure Machine Learning.

dataset_profile

Clase para recopilar estadísticas de resumen de los datos que genera un flujo de datos.

La funcionalidad de este módulo incluye la recopilación de información sobre qué ejecución produjo el perfil, o si el perfil está obsoleto o no.

dataset_profile_run

Contiene la configuración para supervisar la ejecución del perfil del conjunto de datos de Azure Machine Learning.

La funcionalidad de este módulo incluye el control y la supervisión de la ejecución del perfil del conjunto de datos asociada a un objeto de experimento y el identificador de la ejecución individual.

dataset_profile_run_config

Contiene la configuración para generar un resumen estadístico de los conjuntos de datos de Azure Machine Learning.

La funcionalidad de este módulo incluye métodos para enviar la ejecución del perfil local o remoto y visualizar su resultado.

dataset_snapshot

Contiene la funcionalidad para administrar las operaciones de instantáneas del conjunto de datos.

Nota

Este módulo está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contiene los valores de enumeración que se utilizan con Dataset.

datastore_client

Exclusivamente para uso interno.

dbfs_datastore

Contiene la funcionalidad de los almacenes de datos que guarda la información de conexión en Databricks File Sytem (DBFS).

file_dataset

Contiene funcionalidad para hacer referencia a uno o varios archivos en almacenes de datos o direcciones URL públicas.

Para más información, consulte el artículo Incorporación de & registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivo, consulte https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contiene la funcionalidad base de los almacenes de datos que guarda la información de conexión a un clúster de HDFS.

output_dataset_config

Contiene configuraciones que especifican cómo se deben cargar y promover las salidas de un trabajo a un conjunto de datos.

Para más información, consulte el artículo sobre cómo especificar salidas.

sql_data_reference

Contiene funcionalidad para crear referencias a datos de almacenes de datos que guardan la información de conexión en bases de datos SQL.

stored_procedure_parameter

Contiene la funcionalidad para crear un parámetro que se pasará a un procedimiento almacenado de SQL.

tabular_dataset

Contiene funcionalidad para representar datos en un formato tabular mediante el análisis del archivo o la lista de archivos proporcionados.

Para más información, consulte el artículo Incorporación de & registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabulares, consulte https://aka.ms/tabulardataset-samplenotebook.

Clases

DataType

Configura los tipos de datos de columna de un conjunto de datos creado en Azure Machine Learning.

Los métodos DataType se usan en los métodos from_* de la clase TabularDatasetFactory, que se usan para crear nuevos objetos TabularDataset.

DatacacheStore

Nota

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Representa una abstracción de almacenamiento en una cuenta de almacenamiento de Azure Machine Learning.

DatacacheStores se asocia a áreas de trabajo y se usan para almacenar información relacionada con la solución de caché de datos subyacente. Actualmente, solo se admite la solución de blob con particiones. Datacachestores define varios almacenes de datos de blobs que se pueden usar para el almacenamiento en caché.

Se usa esta clase para realizar operaciones de administración, como registrar, enumerar, obtener y actualizar almacenes de datos. Los objetos DatacacheStores para cada servicio se crean con los métodos register* de esta clase.

Obtiene un almacén de caché de datos por nombre. Esta llamada realizará una solicitud al servicio datacache.

FileDataset

Representa una colección de referencias de archivo en almacenes de datos o direcciones URL públicas que se usarán en Azure Machine Learning.

Un objeto FileDataset define una serie de operaciones inmutables que se evalúan de forma diferida para cargar datos del origen de datos en flujos de archivos. Los datos no se cargan desde el origen hasta que se pide a FileDataset que entregue los datos.

Un objeto FileDataset se crea mediante el método from_files de la clase FileDatasetFactory.

Para más información, consulte el artículo Incorporación de & registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivo, consulte https://aka.ms/filedataset-samplenotebook.

Inicialice el objeto FileDataset.

Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante FileDatasetFactory la clase .

HDFSOutputDatasetConfig

Representa cómo generar una salida en una ruta de acceso de HDFS y cómo promoverla como un objeto FileDataset.

Inicialice un HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Nota

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Representa cómo vincular la salida de una ejecución y promoverla como un objeto FileDataset.

LinkFileOutputDatasetConfig permite vincular un conjunto de datos de archivo como conjunto de datos de salida


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialice un linkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Nota

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Representa cómo vincular la salida de una ejecución y promoverla como un objeto TabularDataset.

LinkTabularOutputDatasetConfig permite vincular un archivo tabular como conjunto de datos de salida


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialice un linkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Representa cómo copiar la salida de una ejecución y promoverla como un objeto FileDataset.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialice outputFileDatasetConfig.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representa un conjunto de datos tabulares que se va a usar en Azure Machine Learning.

Un objeto TabularDataset define una serie de operaciones inmutables que se evalúan de forma diferida para cargar datos del origen de datos en una representación tabular. Los datos no se cargan desde el origen hasta que se pide a TabularDataset que entregue los datos.

TabularDataset se crea mediante métodos como from_delimited_files de la clase TabularDatasetFactory.

Para más información, consulte el artículo Incorporación de & registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabulares, consulte https://aka.ms/tabulardataset-samplenotebook.

Inicialice un objeto TabularDataset.

Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante TabularDatasetFactory la clase .