Transformar dados no designer do Azure Machine Learning

Artigo
09/03/2024

Neste artigo, você aprenderá a transformar e salvar conjuntos de dados no designer do Azure Machine Learning, a fim de preparar seus próprios dados para o aprendizado de máquina.

Você usará o conjunto de dados de exemplo de Classificação Binária de Renda de Censo de Adulto para preparar dois conjuntos de dados: um que inclui informações de censo somente de adultos residentes nos Estados Unidos e outro com informações de censo de adultos não residentes nos EUA.

Neste artigo, você aprenderá a:

Transforme um conjunto de dados a fim de prepará-lo para treinamento.
Exporte os conjuntos de dados resultantes para um armazenamento de dados.
Exiba os resultados.

Estas instruções são um pré-requisito para o artigo Como treinar novamente os modelos de designer. Nesse artigo, você aprenderá a usar os conjuntos de dados transformados para treinar vários modelos com parâmetros de pipeline.

Importante

Se você não observar os elementos gráficos mencionados neste documento, como botões no studio ou no designer, talvez não tenha o nível correto de permissões para o espaço de trabalho. Entre em contato com seu administrador de assinatura do Azure para verificar se você recebeu o nível de acesso correto. Para obter mais informações, visite Gerenciar usuários e funções.

Transformar um conjunto de dados

Nesta seção, você aprenderá a importar o conjunto de dados de exemplo e a dividir os dados em conjuntos de dados para residentes dos EUA e para residentes de outros países. Visite como importar dados para obter mais informações sobre como importar seus próprios dados para o designer.

Importar dados

Use estas etapas para importar o conjunto de dados de exemplo:

Entre no Estúdio do Azure Machine Learning e selecione o espaço de trabalho que deseja utilizar
Acesse o designer. Selecione Criar um pipeline usando componentes clássicos predefinidos para criar um novo pipeline
À esquerda da tela do pipeline, na guia Componente, expanda o nó Dados de Amostra.
Arraste e solte o conjunto de dados Classificação Binária de Renda do Censo Adulto na tela.
Clique com o botão direito no componente do conjunto de dados Renda do Censo Adulto e selecione Pré-visualização dos dados.
Use a janela de visualização de dados para explorar o conjunto de dados. Preste atenção especial aos valores da coluna "native-country" (país de origem)

Dividir os dados

Nesta seção, você usará o componente Dividir Dados para identificar e dividir as linhas que contêm "United-States" na coluna "native-country"

À esquerda da tela, na guia de componentes, expanda a seção Transformação de Dados e encontre o componente Dividir Dados.
Arraste o componente Dividir Dados para a tela e solte esse componente abaixo do componente de conjunto de dados.
Conecte o componente do conjunto de dados ao componente Dividir Dados
Selecione o componente Dividir Dados para abrir o painel Dividir Dados
À direita da tela, no ícone Parâmetros, defina o Modo de Divisão para Expressão Regular.
Insira a Expressão Regular: \"native-country" United-States

O modo de Expressão Regular testa uma coluna para um valor. Visite a página de referência do componente de algoritmo relacionado para obter mais informações sobre o componente Dividir Dados.

Seu pipeline deve se assemelhar a esta captura de tela:

Captura de tela que mostra como configurar o pipeline e o componente Dividir Dados

Salvar os conjuntos de dados

Agora que você configurou seu pipeline para dividir os dados, precisará especificar onde deseja manter os conjuntos de dados. Para este exemplo, use o componente Exportar Dados para salvar o conjunto de dados em um armazenamento de dados. Visite Conectar aos serviços de armazenamento do Azure para obter mais informações sobre os armazenamentos de dados.

À esquerda do painel na paleta de componentes, expanda a seção Entrada e Saída de Dados, e encontre o componente Exportar Dados.
Arraste e solte dois componentes Exportar Dados abaixo do componente Dividir Dados.
Conecte cada porta de saída do componente Dividir Dados a um componente Exportar Dados diferente.

Seu pipeline deve ser semelhante a este:
Selecione o componente Exportar Dados conectado à porta esquerda do componente Dividir Dados, para abrir o painel de configuração de Exportação de Dados.

Para o componente Dividir Dados, a ordem da porta de saída é importante. A primeira porta de saída contém as linhas em que a expressão regular é verdadeira. Nesse caso, a primeira porta contém linhas para renda baseada nos EUA e a segunda porta contém linhas para renda não baseada nos EUA
No painel de detalhes do componente à direita da tela, defina as seguintes opções:

Tipo de armazenamento de dados: Armazenamento do Blobs do Azure

Armazenamento de Dados: Selecione um armazenamento de dados existente, ou selecione "Novo armazenamento de dados" para criar um.

Caminho: /data/us-income

Formato de arquivo: csv

Observação

Este artigo pressupõe que você tenha acesso a um armazenamento de dados registrado para o workspace atual do Azure Machine Learning. Visite Conectar-se aos serviços de armazenamento do Azure para obter as instruções sobre a configuração do armazenamento de dados

Você pode criar um armazenamento de dados se não tiver um agora. Para fins de exemplo, este artigo salva os conjuntos de dados na conta de armazenamento de blobs padrão associada ao espaço de trabalho. Ele salva os conjuntos de dados no contêiner azureml, em uma nova pasta chamada data
Selecione o componente Exportar Dados conectado à porta direita do componente Dividir Dados, para abrir o painel de configuração de Exportação de Dados.
À direita da tela no painel de detalhes do componente, defina as seguintes opções:

Tipo de armazenamento de dados: Armazenamento do Blobs do Azure

Armazenamento de Dados: Selecione o armazenamento de dados anterior

Caminho: /data/non-us-income

Formato de arquivo: csv
Verifique se o componente Exportar Dados conectado à porta esquerda do Dividir Dados tem o Caminho /data/us-income
Verifique se o componente Exportar Dados conectado à porta direita tem o Caminho /data/non-us-income

Seu pipeline e configurações devem ter esta aparência:

Enviar o trabalho

Agora que você configurou o pipeline para dividir e exportar os dados, envie um trabalho de pipeline.

Selecione Configurar e Enviar na parte superior da tela
Selecione a opção Criar no painel Básico Configurar trabalho de pipeline, para criar um experimento

Os experimentos agrupam logicamente trabalhos de pipeline relacionados. Se você executar esse pipeline no futuro, deverá usar o mesmo experimento para fins de registro e acompanhamento
Forneça um nome descritivo para o experimento - por exemplo, "split-census-data"
Selecione Examinar + Enviar e, em seguida, selecione Enviar

Exibir os resultados

Depois que o pipeline terminar de ser executado, você poderá navegar até o armazenamento de blobs do portal do Azure para exibir os resultados. Você também pode exibir os resultados intermediários do componente Dividir Dados para confirmar que os dados foram divididos corretamente.

Selecione o componente Dividir Dados
No painel de detalhes do componente, à direita da tela, selecione a guia Saídas + logs
Selecione o menu suspenso Mostrar saídas de dados
Selecione o ícone de visualização ao lado de Conjunto de dados1 de resultados
Verifique se a coluna "native-country" contém apenas o valor "United-States"
Selecione o ícone de visualização ao lado de Conjunto de dados2 de resultados
Verifique se a coluna "native-country" não contém o valor "United-States"

Limpar os recursos

Para continuar com a parte dois deste tutorial Retreinar modelos de readaptação com o designer do Azure Machine Learning, ignore esta seção.

Importante

Você pode usar os recursos que criou como pré-requisitos em outros tutoriais e artigos de instruções do Serviço do Azure Machine Learning.

Excluir tudo

Se você não pretende usar os recursos criados, exclua todo o grupo de recursos para não gerar encargos.

No portal do Azure, selecione Grupos de recursos no lado esquerdo da janela.
Na lista, selecione o grupo de recursos que você criou.
Selecione Excluir grupo de recursos.

A exclusão de um grupo de recursos também exclui todos os recursos criados no designer.

Excluir recursos individuais

No designer em que você criou seu experimento, exclua ativos individuais selecionando-os e, em seguida, selecionando o botão Excluir.

O destino de computação que você criou aqui é dimensionado automaticamente para zero nós quando não estiver sendo usado. Essa ação é executada para minimizar encargos. Se você quiser excluir o destino de computação, siga estas etapas:

Excluir ativos

É possível cancelar o registro de conjuntos de dados do seu workspace selecionando cada conjunto de dados e, Cancelar registro.

Cancelar o registro do conjunto de dados

Para excluir um conjunto de dados, acesse a conta de armazenamento usando o portal do Azure ou o Gerenciador de Armazenamento do Azure e exclua manualmente esses ativos.

Próximas etapas

Neste artigo, você aprendeu como transformar um conjunto de dados e salvá-lo em um armazenamento de dados registrado.

Prossiga para a próxima parte desta série de instruções com Treinar modelos novamente com o designer do Azure Machine Learning para usar seus conjuntos de dados transformados e parâmetros de pipeline para treinar modelos de machine learning.

Compartilhar via