Partilhar via


Criar conjuntos de dados do Azure Machine Learning a partir de conjuntos de dados abertos do Azure

Neste artigo, você aprenderá a trazer dados de enriquecimento selecionados para seus experimentos de aprendizado de máquina locais ou remotos, com conjuntos de dados do Azure Machine Learning e conjuntos de dados abertos do Azure.

Com um conjunto de dados do Azure Machine Learning, você cria uma referência ao local da fonte de dados, juntamente com uma cópia de seus metadados. Como os conjuntos de dados são avaliados preguiçosamente e porque os dados permanecem em seu local existente, você

  • Não arrisque alterações involuntárias nas suas fontes de dados originais
  • Incorra sem custos adicionais de armazenamento
  • Melhore as velocidades de desempenho do fluxo de trabalho de ML

Para obter mais informações sobre onde os conjuntos de dados se encaixam no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, visite o artigo Acesso seguro aos dados .

Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos com curadoria que adicionam recursos específicos do cenário para enriquecer suas soluções preditivas e melhorar a precisão dessas soluções. Visite o recurso de catálogo Open Datasets para obter dados de domínio público que podem ajudá-lo a treinar modelos de aprendizado de máquina - por exemplo:

Os conjuntos de dados abertos são hospedados na nuvem no Microsoft Azure. O SDK Python do Azure Machine Learning e o estúdio Azure Machine Learning incluem-nos.

Pré-requisitos

Necessita de:

Nota

Algumas classes de conjunto de dados têm dependências no pacote azureml-dataprep . Este pacote só é compatível com Python de 64 bits. Para usuários Linux, essas classes são suportadas apenas nestas distribuições Linux:

  • Debian (8, 9)
  • Fedora (27, 28)
  • Red Hat Enterprise Linux (7, 8)
  • Ubuntu (14.04, 16.04, 18.04)

Criar conjuntos de dados com o SDK

Para criar conjuntos de dados do Azure Machine Learning por meio de classes de Conjuntos de Dados Abertos do Azure, no SDK do Python, certifique-se de que instalou o pacote com pip install azureml-opendatasetso . No SDK, a classe de cada conjunto de dados discreto representa essa classe, e determinadas classes estão disponíveis como um tipo de dados do Azure Machine Learning FileDataset , um tipo de dados do Azure Machine Learning TabularDataset ou ambos. Visite a documentação de referência para obter uma lista completa de opendatasets classes.

Você pode recuperar determinadas opendatasets classes como recursos TabularDataset ou FileDataset não. Você pode então manipular e/ou baixar os arquivos diretamente. Outras classes podem recuperar o conjunto de dados somente com o get_tabular_dataset() uso das funções ou get_file_dataset() da Datasetclasse no SDK do Python.

Este código mostra que a classe MNIST opendatasets pode retornar um TabularDataset ou FileDataset:

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Neste exemplo, a classe Diabetes opendatasets só está disponível como um TabularDatasetarquivo . Isto requer a utilização de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrar conjuntos de dados

Registre um conjunto de dados do Azure Machine Learning em seu espaço de trabalho, para que você possa compartilhar o conjunto de dados com outras pessoas e reutilizá-lo em experimentos em seu espaço de trabalho. Quando você registra um conjunto de dados do Azure Machine Learning criado a partir de conjuntos de dados abertos, nenhum dado é baixado imediatamente, mas os dados ficam acessíveis posteriormente (durante o treinamento, por exemplo) quando solicitados de um local de armazenamento central.

Para registrar seus conjuntos de dados em um espaço de trabalho, use o register() método.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Crie conjuntos de dados com o estúdio

Também pode criar conjuntos de dados do Azure Machine Learning a partir de Conjuntos de Dados Abertos do Azure com o estúdio do Azure Machine Learning. Essa interface web consolidada inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade.

Nota

Os conjuntos de dados criados por meio do estúdio do Azure Machine Learning são registrados automaticamente no espaço de trabalho.

  1. No espaço de trabalho, selecione os Dados no painel de navegação esquerdo. Na guia Ativos de dados, selecione Criar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando o controle Criar na guia Ativos de Dados.

  2. Na próxima tela, adicione um nome e uma descrição opcional para o novo ativo de dados. Em seguida, selecione Tabela na lista suspensa Tipo, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção da opção Tabela na lista suspensa Tipo.

  3. Na próxima tela, selecione De Conjuntos de Dados Abertos do Azure e, em seguida, selecione Avançar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção da opção De Conjuntos de Dados Abertos do Azure.

  4. Na próxima tela, selecione um conjunto de dados aberto do Azure disponível. Nesta captura de tela, selecionamos o conjunto de dados de segurança de São Francisco:

    Captura de tela mostrando a seleção do conjunto de dados de Estatísticas da Força de Trabalho dos EUA.

  5. Role para baixo, se necessário, e selecione Avançar, conforme mostrado nesta captura de tela:

    Captura de ecrã a mostrar a seleção do botão Seguinte.

  6. Opcionalmente, filtre os dados com os filtros disponíveis, apropriados para o conjunto de dados escolhido. Para o conjunto de dados de segurança de São Francisco, definimos o intervalo de datas filtrado entre uma data de início de 1º de julho de 2024 e 17 de julho de 2024. Selecione Avançar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção de valores de filtro e a seleção do botão Avançar.

  7. Na próxima tela, revise as configurações do novo ativo de dados e faça as alterações necessárias. Quando parecer bom, selecione Criar como mostrado nesta captura de tela:

    Captura de ecrã a mostrar a revisão das definições escolhidas e a seleção do botão Seguinte.

  8. Para obter mais informações sobre as descrições de campo e intervalos de datas para o conjunto de dados de segurança de São Francisco, visite o recurso Dados de segurança de São Francisco. Para obter mais informações sobre os outros conjuntos de dados, visite o recurso Catálogo de Conjuntos de Dados Abertos do Azure.

O conjunto de dados agora está disponível em seu espaço de trabalho em Conjuntos de dados. Você pode usá-lo da mesma maneira que os outros conjuntos de dados criados.

Acessar conjuntos de dados para seus experimentos

Use seus conjuntos de dados em seus experimentos de aprendizado de máquina para treinar modelos de ML. Para obter mais informações, visite Saiba mais sobre como treinar com conjuntos de dados.

Blocos de notas de exemplo

Para obter exemplos e demonstrações da funcionalidade Open Datasets, reveja estes exemplos de blocos de notas.

Próximos passos