Analisar dados com o Azure Machine Learning
Este tutorial usa o Azure Machine Learning designer para compilar um modelo de aprendizado de máquina preditivo. O modelo é baseado nos dados armazenados no Azure Synapse. O cenário para o tutorial é prever se é provável que um cliente compre uma bicicleta ou não para que a Adventure Works, a loja de bicicletas, possa criar uma campanha de marketing direcionada.
Pré-requisitos
Para realizar este tutorial, você precisa:
- um pool de SQL pré-carregado com dados de exemplo do AdventureWorksDW. Para provisionar esse Pool de SQL, confira Criar um pool de SQL e opte por carregar os dados de exemplo. Se você já tiver um data warehouse, mas não tiver dados de exemplo, poderá carregar dados de exemplo manualmente.
- um workspace do Azure Machine Learning. Siga este tutorial para criar um novo.
Obter os dados
Os dados usados estão na exibição dbo.vTargetMail no AdventureWorksDW. Para usar o Datastore neste tutorial, os dados são exportados primeiro para a conta Azure Data Lake Storage, uma vez que o Azure Synapse não oferece suporte atualmente a conjuntos de dados. O Azure Data Factory pode ser usado para exportar dados do data warehouse para Azure Data Lake Storage usando a atividade de cópia. Use a seguinte consulta para importação:
SELECT [CustomerKey]
,[GeographyKey]
,[CustomerAlternateKey]
,[MaritalStatus]
,[Gender]
,cast ([YearlyIncome] as int) as SalaryYear
,[TotalChildren]
,[NumberChildrenAtHome]
,[EnglishEducation]
,[EnglishOccupation]
,[HouseOwnerFlag]
,[NumberCarsOwned]
,[CommuteDistance]
,[Region]
,[Age]
,[BikeBuyer]
FROM [dbo].[vTargetMail]
Depois que os dados estão disponíveis no Azure Data Lake Storage, os armazenamentos de dados no Azure Machine Learning são usados para se conectar aos serviços de armazenamento do Azure. Siga as etapas abaixo para criar um armazenamento de dados e um conjunto de dados correspondente:
Iniciar o Estúdio do Azure Machine Learning do portal do Azure ou entrar no Estúdio do Azure Machine Learning.
Clique em Armazenamentos de Dados no painel esquerdo na seção Gerenciar e clique em Novo Armazenamento de Dados.
Forneça um nome para o armazenamento de dados, selecione o tipo como 'Armazenamento de Blobs do Azure', forneça o local e as credenciais. Em seguida, clique em Criar.
Em seguida, clique em Conjuntos de dados no painel esquerdo na seção Ativos. Selecione Criar conjuntos de dados com a opção Do armazenamento de dados.
Especifique o nome do conjuntos de dados e selecione o tipo como Tabular. Em seguida, clique em Avançar para avançar.
Na seção Selecionar ou criar um armazenamento de dados, selecione a opção Armazenamento de dados criado anteriormente. Selecione o banco de dados criado anteriormente. Clique em avançar e especifique as configurações de caminho e arquivo. Certifique-se de especificar o cabeçalho da coluna se os arquivos contiverem um.
Por fim, clique em Criar para criar o conjunto de dados.
Configurar experimento do designer
Em seguida, siga as etapas abaixo para a configuração do designer:
Clique na guia Designer no painel esquerdo na seção Autor.
Selecione Componentes predefinidos fáceis de usar para complicar um novo pipeline.
No painel de configurações à direita, especifique o nome do pipeline.
Além disso, selecione um cluster de computação de destino para todo o teste no botão de configurações para um cluster provisionado anteriormente. Feche o painel Configurações.
Importar os dados
Selecione os Conjunto de dados de subtab no painel esquerdo abaixo da caixa de pesquisa.
Arraste o conjunto de dados que você criou anteriormente para a tela.
Limpar os dados
Para limpar os dados, remova algumas colunas que não são relevantes para o modelo. Siga as etapas abaixo:
Selecione a subguia Componentes no painel esquerdo.
Arraste o componente Selecionar colunas no conjunto de dados em Transformação de Dados < Manipulação para a tela. Conecte esse componente ao componente de Conjuntos de Dados.
Clique no componente para abrir o painel de propriedades. Clique na coluna Editar para especificar quais colunas deseja soltar.
Exclua duas colunas: CustomerAlternateKey e GeographyKey. Clique em Salvar
Criar o modelo
Os dados são divididos 80-20: 80% para treinar um modelo de aprendizado de máquina e 20% para testar o modelo. Algoritmos de "duas classes" são usados nesse problema de classificação binária.
Arraste o componente Divisão de Dados para a tela.
No painel de propriedades, digite 0.8 para a Fração de linhas no primeiro conjunto de dados de saída.
Arraste o componente Árvore de Decisão Aumentada de duas classes na tela.
Arraste o componente Treinar modelo para a tela. Especifique as entradas conectando-o aos componentes Árvore de Decisão Aumentada de Duas Classes (algoritmo ML) e Divisão de Dados (dados para treinar o algoritmo).
Para Modelo de treinamento, na opção de Coluna de rótulo no painel de Propriedades, selecione Editar coluna. Selecione a coluna BikeBuyer como a coluna a ser prevista e selecione Salvar.
Pontuar o modelo
Agora, teste como o modelo é executado nos dados de teste. Dois algoritmos diferentes serão comparados para ver qual deles tem um desempenho melhor. Siga as etapas abaixo:
Arraste o componente Pontuação de Modelo para a tela e conecte-o aos componentes Treinar Modelo e Divisão de Dados.
Arraste o Perceptron médio de Bayes de Duas Classes para a tela de experimento. Você vai comparar a forma como esse algoritmo é executado em comparação com a árvore de decisão aumentada em duas classes.
Copie e cole os componentes Treinar Modelo e Pontuação de Modelo na tela.
Arraste o componente Avaliar Modelo na tela para comparar os dois algoritmos.
Clique em Enviar para configurar a execução de pipeline.
Depois que a execução terminar, clique com o botão direito do mouse no componente Avaliar Modelo e clique em Visualizar resultados da avaliação.
As métricas fornecidas são a curva ROC, o diagrama de comparação de precisão e recolhimento e a curva de comparação de precisão. Examine essas métricas para ver que o primeiro modelo foi executado melhor do que o segundo. Para ver o que o primeiro modelo previu, clique com o botão direito do mouse no componente Pontuação de Modelo e clique em Visualizar conjunto de dados com pontuação para ver os resultados previstos.
Você verá duas ou mais colunas adicionadas ao seu conjunto de dados de teste.
- Probabilidades Pontuadas: a probabilidade de que um cliente é um comprador de bicicleta.
- Rótulos Pontuados: a classificação feita pelo modelo – comprador de bicicleta (1) ou não (0). Esse limite de probabilidade para a rotulagem é definido como 50% e pode ser ajustado.
Compare a coluna BikeBuyer (real) com os rótulos pontuados (previsão) para ver como o modelo foi bem executado. Em seguida, você pode usar esse modelo para fazer previsões para novos clientes. Você pode publicar esse modelo como um serviço Web ou gravar resultados de volta para o Azure Synapse.
Próximas etapas
Para saber mais sobre o Azure Machine Learning, consulte Introdução ao aprendizado de máquina no Azure.
Saiba mais sobre a pontuação embutida no data warehouse aqui.