Criar conjuntos de dados do Azure Machine Learning a partir de conjuntos de dados abertos do Azure
Neste artigo, você aprenderá a trazer dados de enriquecimento selecionados para seus experimentos de aprendizado de máquina locais ou remotos, com conjuntos de dados do Azure Machine Learning e conjuntos de dados abertos do Azure.
Com um conjunto de dados do Azure Machine Learning, você cria uma referência ao local da fonte de dados, juntamente com uma cópia de seus metadados. Como os conjuntos de dados são avaliados preguiçosamente e porque os dados permanecem em seu local existente, você
- Não arrisque alterações involuntárias nas suas fontes de dados originais
- Incorra sem custos adicionais de armazenamento
- Melhore as velocidades de desempenho do fluxo de trabalho de ML
Para obter mais informações sobre onde os conjuntos de dados se encaixam no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, visite o artigo Acesso seguro aos dados .
Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos com curadoria que adicionam recursos específicos do cenário para enriquecer suas soluções preditivas e melhorar a precisão dessas soluções. Visite o recurso de catálogo Open Datasets para obter dados de domínio público que podem ajudá-lo a treinar modelos de aprendizado de máquina - por exemplo:
- Saúde e genómica
- Trabalho e economia
- População e segurança
- Conjuntos de dados suplementares e comuns
- Transporte
Os conjuntos de dados abertos são hospedados na nuvem no Microsoft Azure. O SDK Python do Azure Machine Learning e o estúdio Azure Machine Learning incluem-nos.
Pré-requisitos
Necessita de:
Uma subscrição do Azure. Se não tiver uma, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.
Um espaço de trabalho do Azure Machine Learning.
O SDK do Azure Machine Learning para Python instalado, que inclui o
azureml-datasets
pacote.- Crie uma instância de computação do Azure Machine Learning - um ambiente de desenvolvimento totalmente configurado e gerenciado que inclui blocos de anotações integrados e o SDK já instalado.
OU
- Trabalhe em seu próprio ambiente Python e instale o SDK você mesmo com estas instruções.
Nota
Algumas classes de conjunto de dados têm dependências no pacote azureml-dataprep . Este pacote só é compatível com Python de 64 bits. Para usuários Linux, essas classes são suportadas apenas nestas distribuições Linux:
- Debian (8, 9)
- Fedora (27, 28)
- Red Hat Enterprise Linux (7, 8)
- Ubuntu (14.04, 16.04, 18.04)
Criar conjuntos de dados com o SDK
Para criar conjuntos de dados do Azure Machine Learning por meio de classes de Conjuntos de Dados Abertos do Azure, no SDK do Python, certifique-se de que instalou o pacote com pip install azureml-opendatasets
o . No SDK, a classe de cada conjunto de dados discreto representa essa classe, e determinadas classes estão disponíveis como um tipo de dados do Azure Machine Learning FileDataset
, um tipo de dados do Azure Machine Learning TabularDataset
ou ambos. Visite a documentação de referência para obter uma lista completa de opendatasets
classes.
Você pode recuperar determinadas opendatasets
classes como recursos TabularDataset
ou FileDataset
não. Você pode então manipular e/ou baixar os arquivos diretamente. Outras classes podem recuperar o conjunto de dados somente com o get_tabular_dataset()
uso das funções ou get_file_dataset()
da Dataset
classe no SDK do Python.
Este código mostra que a classe MNIST opendatasets
pode retornar um TabularDataset
ou FileDataset
:
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
Neste exemplo, a classe Diabetes opendatasets
só está disponível como um TabularDataset
arquivo . Isto requer a utilização de get_tabular_dataset()
.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Registrar conjuntos de dados
Registre um conjunto de dados do Azure Machine Learning em seu espaço de trabalho, para que você possa compartilhar o conjunto de dados com outras pessoas e reutilizá-lo em experimentos em seu espaço de trabalho. Quando você registra um conjunto de dados do Azure Machine Learning criado a partir de conjuntos de dados abertos, nenhum dado é baixado imediatamente, mas os dados ficam acessíveis posteriormente (durante o treinamento, por exemplo) quando solicitados de um local de armazenamento central.
Para registrar seus conjuntos de dados em um espaço de trabalho, use o register()
método.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Crie conjuntos de dados com o estúdio
Também pode criar conjuntos de dados do Azure Machine Learning a partir de Conjuntos de Dados Abertos do Azure com o estúdio do Azure Machine Learning. Essa interface web consolidada inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade.
Nota
Os conjuntos de dados criados por meio do estúdio do Azure Machine Learning são registrados automaticamente no espaço de trabalho.
No espaço de trabalho, selecione os Dados no painel de navegação esquerdo. Na guia Ativos de dados, selecione Criar, conforme mostrado nesta captura de tela:
Na próxima tela, adicione um nome e uma descrição opcional para o novo ativo de dados. Em seguida, selecione Tabela na lista suspensa Tipo, conforme mostrado nesta captura de tela:
Na próxima tela, selecione De Conjuntos de Dados Abertos do Azure e, em seguida, selecione Avançar, conforme mostrado nesta captura de tela:
Na próxima tela, selecione um conjunto de dados aberto do Azure disponível. Nesta captura de tela, selecionamos o conjunto de dados de segurança de São Francisco:
Role para baixo, se necessário, e selecione Avançar, conforme mostrado nesta captura de tela:
Opcionalmente, filtre os dados com os filtros disponíveis, apropriados para o conjunto de dados escolhido. Para o conjunto de dados de segurança de São Francisco, definimos o intervalo de datas filtrado entre uma data de início de 1º de julho de 2024 e 17 de julho de 2024. Selecione Avançar, conforme mostrado nesta captura de tela:
Na próxima tela, revise as configurações do novo ativo de dados e faça as alterações necessárias. Quando parecer bom, selecione Criar como mostrado nesta captura de tela:
Para obter mais informações sobre as descrições de campo e intervalos de datas para o conjunto de dados de segurança de São Francisco, visite o recurso Dados de segurança de São Francisco. Para obter mais informações sobre os outros conjuntos de dados, visite o recurso Catálogo de Conjuntos de Dados Abertos do Azure.
O conjunto de dados agora está disponível em seu espaço de trabalho em Conjuntos de dados. Você pode usá-lo da mesma maneira que os outros conjuntos de dados criados.
Acessar conjuntos de dados para seus experimentos
Use seus conjuntos de dados em seus experimentos de aprendizado de máquina para treinar modelos de ML. Para obter mais informações, visite Saiba mais sobre como treinar com conjuntos de dados.
Blocos de notas de exemplo
Para obter exemplos e demonstrações da funcionalidade Open Datasets, reveja estes exemplos de blocos de notas.
Próximos passos
- Treine seu primeiro modelo de ML.
- Treine com conjuntos de dados.
- Crie um conjunto de dados do Azure Machine Learning.