Tutorial 2: Treinar modelos de risco de crédito - Machine Learning Studio (clássico)
APLICA-SE A: Machine Learning Studio (clássico) Azure Machine Learning
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre como mover projetos de aprendizado de máquina do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Neste tutorial, você analisa detalhadamente o processo de desenvolvimento de uma solução de análise preditiva. Você desenvolve um modelo simples no Machine Learning Studio (clássico). Em seguida, você implanta o modelo como um serviço Web de Aprendizado de Máquina. Esse modelo implantado pode fazer previsões usando novos dados. Este tutorial é a segunda parte de uma série de tutoriais de três partes.
Suponhamos que precisa de prever o risco de crédito de um indivíduo com base nas informações fornecidas sobre uma aplicação de crédito.
A avaliação do risco de crédito é um problema complexo, mas este tutorial irá simplificá-lo um pouco. Você o usará como um exemplo de como criar uma solução de análise preditiva usando o Machine Learning Studio (clássico). Você usará o Machine Learning Studio (clássico) e um serviço Web de Machine Learning para esta solução.
Neste tutorial de três partes, você começa com dados de risco de crédito disponíveis publicamente. Em seguida, você desenvolve e treina um modelo preditivo. Finalmente, você implanta o modelo como um serviço Web.
Na primeira parte do tutorial, você criou um espaço de trabalho (clássico) do Estúdio de Aprendizado de Máquina, carregou dados e criou um experimento.
Nesta parte do tutorial, você:
- Treinar vários modelos
- Pontuar e avaliar os modelos
Na terceira parte do tutorial, você implantará o modelo como um serviço Web.
Pré-requisitos
Conclua a primeira parte do tutorial.
Treinar vários modelos
Um dos benefícios de usar o Machine Learning Studio (clássico) para criar modelos de aprendizado de máquina é a capacidade de experimentar mais de um tipo de modelo ao mesmo tempo em um único experimento e comparar os resultados. Este tipo de experimentação ajuda-o a encontrar a melhor solução para o seu problema.
No experimento que estamos desenvolvendo neste tutorial, você criará dois tipos diferentes de modelos e, em seguida, comparará seus resultados de pontuação para decidir qual algoritmo deseja usar em nosso experimento final.
Existem vários modelos que você pode escolher. Para ver os modelos disponíveis, expanda o nó Aprendizado de Máquina na paleta de módulos e, em seguida, expanda Inicializar Modelo e os nós abaixo dele. Para os fins deste experimento, você selecionará os módulos SVM (Two-Class Support Vetor Machine ) e Two-Class Boosted Decision Tree .
Você adicionará o módulo Árvore decisória impulsionada de duas classes e o módulo Máquina vetorial de suporte de duas classes neste experimento.
Árvore de Decisões Elevada de Duas Classes
Primeiro, configure o modelo de árvore de decisão impulsionada.
Encontre o módulo Árvore de Decisão Impulsionada de Duas Classes na paleta de módulos e arraste-o para a tela.
Encontre o módulo Train Model , arraste-o para a tela e, em seguida, conecte a saída do módulo Two-Class Boosted Decision Tree à porta de entrada esquerda do módulo Train Model .
O módulo Árvore de Decisão Impulsionada de Duas Classes inicializa o modelo genérico e Train Model usa dados de treinamento para treinar o modelo.
Conecte a saída esquerda do módulo esquerdo Execute R Script à porta de entrada direita do módulo Train Model (neste tutorial, você usou os dados provenientes do lado esquerdo do módulo Split Data para treinamento).
Gorjeta
você não precisa de duas das entradas e uma das saídas do módulo Execute R Script para este experimento, para que você possa deixá-las desanexadas.
Esta parte do experimento agora se parece com isto:
Agora você precisa dizer ao módulo Train Model que deseja que o modelo preveja o valor do Risco de Crédito.
Selecione o módulo Train Model . No painel Propriedades, clique em Iniciar seletor de coluna.
Na caixa de diálogo Selecione uma única coluna, digite "risco de crédito" no campo de pesquisa em Colunas disponíveis, selecione "Risco de crédito" abaixo e clique no botão de seta para a direita (>) para mover "Risco de crédito" para Colunas selecionadas.
Clique na marca de seleção OK .
Máquina de Vetores de Suporte de Duas Classes
Em seguida, configure o modelo SVM.
Primeiro, uma pequena explicação sobre SVM. Árvores de decisão impulsionadas funcionam bem com recursos de qualquer tipo. No entanto, como o módulo SVM gera um classificador linear, o modelo que ele gera tem o melhor erro de teste quando todos os recursos numéricos têm a mesma escala. Para converter todos os recursos numéricos para a mesma escala, use uma transformação "Tanh" (com o módulo Normalizar dados ). Isso transforma nossos números na faixa de [0,1]. O módulo SVM converte recursos de cadeia de caracteres em recursos categóricos e, em seguida, em recursos binários 0/1, para que você não precise transformar manualmente os recursos de cadeia de caracteres. Além disso, você não quer transformar a coluna Risco de Crédito (coluna 21) - é numérica, mas é o valor que estamos treinando o modelo para prever, então você precisa deixá-lo em paz.
Para configurar o modelo SVM, faça o seguinte:
Encontre o módulo Máquina vetorial de suporte de duas classes na paleta de módulos e arraste-o para a tela.
Clique com o botão direito do mouse no módulo Train Model , selecione Copiar e, em seguida, clique com o botão direito do mouse na tela e selecione Colar. A cópia do módulo Modelo de Comboio tem a mesma seleção de colunas que o original.
Conecte a saída do módulo Máquina vetorial de suporte de duas classes à porta de entrada esquerda do segundo módulo Modelo de trem.
Encontre o módulo Normalizar dados e arraste-o para a tela.
Conecte a saída esquerda do módulo esquerdo Execute R Script à entrada deste módulo (observe que a porta de saída de um módulo pode estar conectada a mais de um outro módulo).
Conecte a porta de saída esquerda do módulo Normalize Data à porta de entrada direita do segundo módulo Train Model .
Esta parte da nossa experiência deve agora ser mais ou menos assim:
Agora configure o módulo Normalizar dados :
Clique para selecionar o módulo Normalizar dados . No painel Propriedades, selecione Tanh para o parâmetro Método de transformação.
Clique em Iniciar seletor de colunas, selecione "Sem colunas" para Começar, selecione Incluir na primeira lista suspensa, selecione tipo de coluna na segunda lista suspensa e selecione Numérico na terceira lista suspensa. Isso especifica que todas as colunas numéricas (e apenas numéricas) são transformadas.
Clique no sinal de adição (+) à direita desta linha - isso cria uma linha de menus suspensos. Selecione Excluir na primeira lista suspensa, selecione nomes de colunas na segunda lista suspensa e digite "Risco de crédito" no campo de texto. Isso especifica que a coluna Risco de Crédito deve ser ignorada (você precisa fazer isso porque essa coluna é numérica e, portanto, seria transformada se você não a excluísse).
Clique na marca de seleção OK .
O módulo Normalizar dados agora está definido para executar uma transformação Tanh em todas as colunas numéricas, exceto na coluna Risco de crédito.
Pontuar e avaliar os modelos
você usa os dados de teste que foram separados pelo módulo Split Data para pontuar nossos modelos treinados. Você pode então comparar os resultados dos dois modelos para ver qual gerou melhores resultados.
Adicionar os módulos do Modelo de Pontuação
Encontre o módulo Modelo de pontuação e arraste-o para a tela.
Conecte o módulo Train Model conectado ao módulo Two-Class Boosted Decision Tree à porta de entrada esquerda do módulo Score Model .
Conecte o módulo Execute R Script correto (nossos dados de teste) à porta de entrada correta do módulo Score Model.
O módulo Modelo de pontuação agora pode pegar as informações de crédito dos dados de teste, executá-las através do modelo e comparar as previsões que o modelo gera com a coluna de risco de crédito real nos dados de teste.
Copie e cole o módulo Modelo de pontuação para criar uma segunda cópia.
Conecte a saída do modelo SVM (ou seja, a porta de saída do módulo Train Model conectado ao módulo Two-Class Support Vetor Machine ) à porta de entrada do segundo módulo Score Model .
Para o modelo SVM, você precisa fazer a mesma transformação nos dados de teste que fez nos dados de treinamento. Portanto, copie e cole o módulo Normalize Data para criar uma segunda cópia e conectá-lo ao módulo Execute R Script correto.
Conecte a saída esquerda do segundo módulo Normalize Data à porta de entrada direita do segundo módulo Score Model .
Adicionar o módulo Avaliar modelo
Para avaliar os dois resultados de pontuação e compará-los, use um módulo Avaliar modelo .
Encontre o módulo Avaliar modelo e arraste-o para a tela.
Conecte a porta de saída do módulo Score Model associada ao modelo de árvore de decisão impulsionado à porta de entrada esquerda do módulo Evaluate Model .
Conecte o outro módulo do Score Model à porta de entrada correta.
Execute a experiência e verifique os resultados
Para executar o experimento, clique no botão EXECUTAR abaixo da tela. Esta operação poderá demorar alguns minutos. Um indicador de rotação em cada módulo mostra que ele está em execução e, em seguida, uma marca de seleção verde mostra quando o módulo é concluído. Quando todos os módulos tiverem uma marca de seleção, o experimento terminará de ser executado.
O experimento agora deve ser algo assim:
Para verificar os resultados, clique na porta de saída do módulo Avaliar modelo e selecione Visualizar.
O módulo Avaliar Modelo produz um par de curvas e métricas que permitem comparar os resultados dos dois modelos pontuados. Você pode visualizar os resultados como curvas ROC (Receiver Operator Characteristic), curvas de precisão/recall ou curvas de elevação. Os dados adicionais apresentados incluem uma matriz de confusão, valores cumulativos para a área sob a curva (AUC) e outras métricas. Você pode alterar o valor do limite movendo o controle deslizante para a esquerda ou para a direita e veja como ele afeta o conjunto de métricas.
À direita do gráfico, clique em Conjunto de dados pontuado ou Conjunto de dados pontuado para comparar para realçar a curva associada e exibir as métricas associadas abaixo. Na legenda das curvas, "Conjunto de dados pontuado" corresponde à porta de entrada esquerda do módulo Avaliar Modelo - no nosso caso, este é o modelo de árvore de decisão impulsionada. "Conjunto de dados pontuado para comparar" corresponde à porta de entrada certa - o modelo SVM no nosso caso. Quando você clica em um desses rótulos, a curva desse modelo é realçada e as métricas correspondentes são exibidas, conforme mostrado no gráfico a seguir.
Ao examinar esses valores, você pode decidir qual modelo está mais próximo de fornecer os resultados que você está procurando. Você pode voltar e iterar em seu experimento alterando os valores dos parâmetros nos diferentes modelos.
A ciência e a arte de interpretar esses resultados e ajustar o desempenho do modelo estão fora do escopo deste tutorial. Para obter ajuda adicional, você pode ler os seguintes artigos:
- Como avaliar o desempenho do modelo no Machine Learning Studio (clássico)
- Escolha parâmetros para otimizar seus algoritmos no Machine Learning Studio (clássico)
- Interpretar resultados de modelos no Machine Learning Studio (clássico)
Gorjeta
Cada vez que você executa o experimento, um registro dessa iteração é mantido no Histórico de Execução. Você pode visualizar essas iterações e retornar a qualquer uma delas clicando em EXIBIR HISTÓRICO DE EXECUÇÃO abaixo da tela. Você também pode clicar em Execução Prévia no painel Propriedades para retornar à iteração imediatamente anterior à que você abriu.
Você pode fazer uma cópia de qualquer iteração do seu experimento clicando em SALVAR COMO abaixo da tela. Use as propriedades Resumo e Descrição do experimento para manter um registro do que você tentou nas iterações do experimento.
Para obter mais informações, consulte Gerenciar iterações de experimento no Machine Learning Studio (clássico).
Clean up resources (Limpar recursos)
Se você não precisar mais dos recursos que criou usando este artigo, exclua-os para evitar incorrer em cobranças. Saiba como no artigo, Exportar e excluir dados do usuário no produto.
Próximos passos
Neste tutorial, você concluiu estas etapas:
- Criar uma experimentação
- Treinar vários modelos
- Pontuar e avaliar os modelos
Agora você está pronto para implantar modelos para esses dados.