data Pacote
Contém módulos que dão suporte à representação de dados para armazenamento de dados e conjunto de dados no Azure Machine Learning.
Este pacote contém a funcionalidade principal que dá suporte às classes Datastore e Dataset no pacote core. Os objetos de Armazenamento de Dados contêm as informações de conexão com os serviços de Armazenamento do Azure que podem ser facilmente referenciados pelo nome sem a necessidade de trabalhar diretamente com informações de conexão nem de codificá-las em scripts. O armazenamento de dados dá suporte a vários serviços diferentes representados por classes nesse pacote, incluindo AzureBlobDatastore, AzureFileDatastore e AzureDataLakeDatastore. Para obter uma lista completa de serviços de armazenamento com suporte, confira a classe Datastore.
Enquanto um armazenamento de dados atua como um contêiner para seus arquivos de dados, você pode considerar um conjunto de dados como uma referência ou um indicador para dados específicos que estão no armazenamento de dados. Há suporte para os seguintes tipos de Conjuntos de dados:
TabularDataset representa dados em um formato tabular criado pela análise do arquivo fornecido ou da lista de arquivos.
FileDataset referencia arquivos únicos ou vários arquivos nos armazenamentos de dados ou nas URLs públicas.
Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com conjuntos de dados, confira https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.
Módulos
abstract_dataset |
Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning. |
abstract_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão nos serviços de armazenamento do Azure. |
azure_data_lake_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Azure Data Lake Storage. |
azure_my_sql_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para MySQL. |
azure_postgre_sql_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para PostgreSQL. |
azure_sql_database_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados SQL do Azure. |
azure_storage_datastore |
Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no armazenamento de Blobs do Azure e Arquivos do Azure. |
constants |
Constantes usadas no pacote azureml.data. Somente para uso interno. |
context_managers |
Contém a funcionalidade para gerenciar o contexto de dados de armazenamentos e conjuntos de dados. Somente para uso interno. |
data_reference |
Contém a funcionalidade que define como criar referências a dados em armazenamentos de dados. |
datacache |
Contém a funcionalidade para gerenciar DatacacheStore e Datacache no Azure Machine Learning. |
datacache_client |
Somente para uso interno. |
datacache_consumption_config |
Contém a funcionalidade para a configuração de consumo de DataCache. |
datacache_singularity_settings |
Contém objetos necessários para a representação de configurações do Datacache Singularity. |
datapath |
Contém a funcionalidade para criar referências a dados em armazenamentos de dados. Esse módulo contém a classe DataPath, que representa o local dos dados e a classe DataPathComputeBinding, que representa como os dados são disponibilizados nos destinos de computação. |
dataset_action_run |
Contém a funcionalidade que gerencia a execução de ações de conjunto de dados. Esse módulo fornece métodos práticos para criar ações de conjunto de dados e obter o resultado delas após a conclusão. |
dataset_consumption_config |
Contém a funcionalidade para a configuração de consumo do conjunto de dados. |
dataset_definition |
Contém a funcionalidade para gerenciar a definição do conjunto de dados e as respectivas operações. Observação Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Contém exceções para tratamento de erro de conjunto de dados do Azure Machine Learning. |
dataset_factory |
Contém a funcionalidade para criar conjuntos de dados para o Azure Machine Learning. |
dataset_profile |
Classe para coletar estatísticas resumidas sobre os dados produzidos por um fluxo de dados. A funcionalidade neste módulo inclui a coleta de informações sobre qual execução produziu o perfil e se o perfil está obsoleto ou não. |
dataset_profile_run |
Contém a configuração para monitorar a execução do perfil de conjunto de dados no Azure Machine Learning. A funcionalidade neste módulo inclui a manipulação e o monitoramento da execução do perfil de conjunto de dados associado a um objeto de experimento e a uma ID de execução individual. |
dataset_profile_run_config |
Contém a configuração para gerar o resumo de estatísticas de Conjuntos de Dados no Azure Machine Learning. A funcionalidade nesse módulo inclui os métodos para enviar a execução de perfil local ou remoto e visualizar o resultado da execução de perfil enviada. |
dataset_snapshot |
Contém a funcionalidade para gerenciar operações de instantâneo do conjunto de dados. Observação Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Contém valores de enumeração usados com Dataset. |
datastore_client |
Somente para uso interno. |
dbfs_datastore |
Contém a funcionalidade para os armazenamentos de dados que salvam informações de conexão no Sytem de Arquivos do Databricks (DBFS). |
file_dataset |
Contém a funcionalidade para fazer referência a um ou vários arquivos em armazenamentos de dados ou URLs públicas. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão em um cluster HDFS. |
output_dataset_config |
Contém configurações que especificam como as saídas de um trabalho devem ser carregadas e promovidas a um conjunto de dados. Para obter mais informações, confira o artigo como especificar saídas. |
sql_data_reference |
Contém funcionalidade para criar referências a dados em datastores que salvam informações de conexão em bancos de dados SQL. |
stored_procedure_parameter |
Contém a funcionalidade para criar um parâmetro a ser aprovado para um procedimento SQL armazenado. |
tabular_dataset |
Contém a funcionalidade para representar dados em formato tabular analisando o arquivo ou a lista de arquivos fornecida. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook. |
Classes
DataType |
Configura os tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning. Os métodos DataType são usados nos métodos |
DatacacheStore |
Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa uma abstração de armazenamento de uma conta de armazenamento do Azure Machine Learning. DatacacheStores são anexados aos workspaces e usados para armazenar as informações relacionadas à solução de cache de dados subjacente. Atualmente, há suporte apenas para a solução de blob particionado. Eles definem vários armazenamentos de dados de blob que podem ser usados para cache. Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e atualizar datacachestores.
DatacacheStores para cada serviço são criados com os métodos Obter um armazenamento de dados em cache por nome. Essa chamada fará uma solicitação para o serviço datacache. |
FileDataset |
Representa uma coleção de referências de arquivo em armazenamentos de dados ou URLs públicas para uso no Azure Machine Learning. Um FileDataset define uma série de operações imutáveis avaliadas lentamente para carregar os dados da fonte de dados em fluxos de arquivos. Os dados não são carregados na origem até que o FileDataset seja solicitado a fornecer os dados. Um FileDataset é criado usando o método from_files da classe FileDatasetFactory. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook. Inicialize o objeto FileDataset. Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando FileDatasetFactory a classe . |
HDFSOutputDatasetConfig |
Representa como gerar uma saída para um caminho HDFS e ser promovido como um FileDataset. Inicialize um HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa como vincular a saída de uma execução e promovê-la como um FileDataset. O LinkFileOutputDatasetConfig permite vincular um conjunto de dados de arquivo como um conjunto de dados de saída
Inicialize um LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa como vincular a saída de uma execução e depois promovê-la como um TabularDataset. O LinkTabularOutputDatasetConfig permite vincular um arquivo Tabular como um conjunto de dados de saída
Inicialize um LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Representa como copiar a saída de uma execução e depois promovê-la como um FileDataset. O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo em que nenhum argumento é passado:
Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:
Inicialize um OutputFileDatasetConfig. O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo em que nenhum argumento é passado:
Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:
|
TabularDataset |
Representa um conjunto de dados tabular a ser usado no Azure Machine Learning. Um TabularDataset define uma série de operações que passam por avaliação preguiçosa e imutáveis a fim de carregar dados da fonte de dados para a representação tabular. Os dados não são carregados da origem até que TabularDataset seja solicitado a fornecer dados. TabularDataset é criado usando métodos como from_delimited_files da classe TabularDatasetFactory. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook. Inicialize um objeto TabularDataset. Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory a classe . |