Tutorial 1: Prever o risco de crédito - Machine Learning Studio (clássico)
APLICA-SE A: Machine Learning Studio (clássico) Azure Machine Learning
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre como mover projetos de aprendizado de máquina do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Neste tutorial, você analisa detalhadamente o processo de desenvolvimento de uma solução de análise preditiva. Você desenvolve um modelo simples no Machine Learning Studio (clássico). Em seguida, você implanta o modelo como um serviço Web de Aprendizado de Máquina. Esse modelo implantado pode fazer previsões usando novos dados. Este tutorial é parte um de uma série de tutoriais de três partes.
Suponhamos que precisa de prever o risco de crédito de um indivíduo com base nas informações fornecidas sobre uma aplicação de crédito.
A avaliação do risco de crédito é um problema complexo, mas este tutorial irá simplificá-lo um pouco. Você o usará como um exemplo de como criar uma solução de análise preditiva usando o Machine Learning Studio (clássico). Você usará um Machine Learning Studio (clássico) e um serviço Web de Machine Learning para esta solução.
Neste tutorial de três partes, você começa com dados de risco de crédito disponíveis publicamente. Em seguida, você desenvolve e treina um modelo preditivo. Finalmente, você implanta o modelo como um serviço Web.
Nesta parte do tutorial, você:
- Criar um espaço de trabalho do Estúdio de Aprendizado de Máquina (clássico)
- Carregar os dados existentes
- Criar uma experimentação
Em seguida, você pode usar esse experimento para treinar modelos na parte 2 e, em seguida, implantá-los na parte 3.
Pré-requisitos
Este tutorial pressupõe que você já usou o Machine Learning Studio (clássico) pelo menos uma vez antes e que você tem alguma compreensão dos conceitos de aprendizado de máquina. Porém, não parte do princípio de que é um especialista.
Se você nunca usou o Machine Learning Studio (clássico) antes, talvez queira começar com o guia de início rápido, Criar seu primeiro experimento de ciência de dados no Machine Learning Studio (clássico). O guia de início rápido leva você pelo Machine Learning Studio (clássico) pela primeira vez. Mostra-lhe as noções básicas de como arrastar e largar módulos na experimentação, ligá-los entre si, executar a experimentação e analisar os resultados.
Gorjeta
Você pode encontrar uma cópia de trabalho do experimento que você desenvolve neste tutorial na Galeria de IA do Azure. Vá para Tutorial - Prever risco de crédito e clique em Abrir no Studio para baixar uma cópia do experimento em seu espaço de trabalho do Machine Learning Studio (clássico).
Criar um espaço de trabalho do Estúdio de Aprendizado de Máquina (clássico)
Para usar o Estúdio de Aprendizado de Máquina (clássico), você precisa ter um espaço de trabalho do Estúdio de Aprendizado de Máquina (clássico). Esta área de trabalho contém as ferramentas de que precisa para criar, gerir e publicar experimentações.
Para criar um espaço de trabalho, consulte Criar e compartilhar um espaço de trabalho do Estúdio de Aprendizado de Máquina (clássico).
Depois que o espaço de trabalho for criado, abra o Estúdio de Aprendizado de Máquina (clássico) (https://studio.azureml.net/Home). Se você tiver mais de um espaço de trabalho, poderá selecioná-lo na barra de ferramentas no canto superior direito da janela.
Gorjeta
Se você for o proprietário do espaço de trabalho, poderá compartilhar os experimentos em que está trabalhando convidando outras pessoas para o espaço de trabalho. Você pode fazer isso no Machine Learning Studio (clássico) na página CONFIGURAÇÕES . Você só precisa da conta da Microsoft ou da conta organizacional para cada usuário.
Na página CONFIGURAÇÕES, clique em USUÁRIOS e, em seguida, clique em CONVIDAR MAIS USUÁRIOS na parte inferior da janela.
Carregar os dados existentes
Para desenvolver um modelo preditivo para o risco de crédito, você precisa de dados que possam ser usados para treinar e, em seguida, testar o modelo. Para este tutorial, você usará o "UCI Statlog (German Credit Data) Data set" do repositório UC Irvine Machine Learning. Pode encontrá-lo aqui:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)
Você usará o arquivo chamado german.data. Transfira este ficheiro para o seu disco rígido local.
O conjunto de dados german.data contém linhas de 20 variáveis para 1000 candidatos anteriores a crédito. Essas 20 variáveis representam o conjunto de recursos do conjunto de dados (o vetor de recursos), que fornece características de identificação para cada solicitante de crédito. Uma coluna adicional em cada linha representa o risco de crédito calculado pelo requerente, com 700 candidatos identificados como um risco de crédito baixo e 300 como um risco elevado.
O site da UCI fornece uma descrição dos atributos do vetor de recurso para esses dados. Esses dados incluem informações financeiras, histórico de crédito, status de emprego e informações pessoais. Para cada requerente, foi atribuída uma notação binária que indica se se trata de um risco de crédito baixo ou elevado.
Você usará esses dados para treinar um modelo de análise preditiva. Quando terminar, seu modelo deve ser capaz de aceitar um vetor de recurso para um novo indivíduo e prever se ele é um risco de crédito baixo ou alto.
Aqui está uma reviravolta interessante.
A descrição do conjunto de dados no sítio Web da UCI menciona os custos da classificação incorreta do risco de crédito de uma pessoa. Se o modelo prevê um alto risco de crédito para alguém que é realmente um baixo risco de crédito, o modelo fez uma classificação incorreta.
Mas a classificação incorreta inversa é cinco vezes mais cara para a instituição financeira: se o modelo prevê um baixo risco de crédito para alguém que é realmente um alto risco de crédito.
Então, você quer treinar seu modelo para que o custo desse último tipo de classificação incorreta seja cinco vezes maior do que classificar erroneamente de outra forma.
Uma maneira simples de fazer isso ao treinar o modelo em seu experimento é duplicando (cinco vezes) as entradas que representam alguém com alto risco de crédito.
Então, se o modelo classifica erroneamente alguém como um baixo risco de crédito quando na verdade é um risco alto, o modelo faz essa mesma classificação incorreta cinco vezes, uma para cada duplicata. Isso aumentará o custo desse erro nos resultados do treinamento.
Converter o formato do conjunto de dados
O conjunto de dados original usa um formato separado em branco. O Machine Learning Studio (clássico) funciona melhor com um arquivo CSV (valores separados por vírgula), portanto, você converterá o conjunto de dados substituindo espaços por vírgulas.
Há muitas maneiras de converter esses dados. Uma maneira é usar o seguinte comando do Windows PowerShell:
cat german.data | %{$_ -replace " ",","} | sc german.csv
Outra maneira é usando o comando Unix sed:
sed 's/ /,/g' german.data > german.csv
Em ambos os casos, você criou uma versão separada por vírgulas dos dados em um arquivo chamado german.csv que você pode usar em seu experimento.
Carregue o conjunto de dados no Machine Learning Studio (clássico)
Depois que os dados forem convertidos para o formato CSV, você precisará carregá-los no Machine Learning Studio (clássico).
Abra a página inicial do Estúdio de Aprendizado de Máquina (clássico) (https://studio.azureml.net).
Clique no menu no canto superior esquerdo da janela, clique em Azure Machine Learning, selecione Studio e entre.
Clique em +NOVO na parte inferior da janela.
Selecione DATASET.
Selecione FROM LOCAL FILE.
Na caixa de diálogo Carregar um novo conjunto de dados, clique em Procurar e localize o arquivo german.csv que você criou.
Insira um nome para o conjunto de dados. Para este tutorial, chame-o de "UCI German Credit Card Data".
Para o tipo de dados, selecione Arquivo CSV genérico sem cabeçalho (.nh.csv).
Adicione uma descrição se desejar.
Clique na marca de seleção OK .
Isso carrega os dados em um módulo de conjunto de dados que você pode usar em um experimento.
Você pode gerenciar conjuntos de dados que carregou para o Studio (clássico) clicando na guia DATASETS à esquerda da janela Studio (clássico).
Para obter mais informações sobre como importar outros tipos de dados para um experimento, consulte Importar seus dados de treinamento para o Machine Learning Studio (clássico).
Criar uma experimentação
A próxima etapa deste tutorial é criar um experimento no Machine Learning Studio (clássico) que use o conjunto de dados carregado.
No Studio (clássico), clique em +NOVO na parte inferior da janela.
Selecione EXPERIMENTO e, em seguida, selecione "Experiência em branco".
Selecione o nome do experimento padrão na parte superior da tela e renomeie-o para algo significativo.
Gorjeta
É uma boa prática preencher Resumo e Descrição do experimento no painel Propriedades. Estas propriedades dão-lhe a oportunidade de documentar a experiência para que qualquer pessoa que a analise mais tarde compreenda os seus objetivos e metodologia.
Na paleta de módulos à esquerda da tela do experimento, expanda Conjuntos de dados salvos.
Localize o conjunto de dados criado em Meus Conjuntos de Dados e arraste-o para a tela. Você também pode encontrar o conjunto de dados digitando o nome na caixa Pesquisar acima da paleta.
Preparar os dados
Você pode visualizar as primeiras 100 linhas dos dados e algumas informações estatísticas para todo o conjunto de dados: Clique na porta de saída do conjunto de dados (o pequeno círculo na parte inferior) e selecione Visualizar.
Como o arquivo de dados não vinha com cabeçalhos de coluna, o Studio (clássico) forneceu títulos genéricos (Col1, Col2, etc.). Bons cabeçalhos não são essenciais para criar um modelo, mas facilitam o trabalho com os dados no experimento. Além disso, quando você eventualmente publica esse modelo em um serviço Web, os títulos ajudam a identificar as colunas para o usuário do serviço.
Você pode adicionar cabeçalhos de coluna usando o módulo Editar metadados .
Use o módulo Editar metadados para alterar metadados associados a um conjunto de dados. Nesse caso, você o usa para fornecer nomes mais amigáveis para cabeçalhos de coluna.
Para usar Editar Metadados, primeiro especifique quais colunas modificar (neste caso, todas elas). Em seguida, especifique a ação a ser executada nessas colunas (neste caso, alterando os cabeçalhos das colunas).
Na paleta de módulos, digite "metadados" na caixa Pesquisar . A opção Editar metadados aparece na lista de módulos.
Clique e arraste o módulo Editar metadados para a tela e solte-o abaixo do conjunto de dados adicionado anteriormente.
Conecte o conjunto de dados à opção Editar metadados: clique na porta de saída do conjunto de dados (o pequeno círculo na parte inferior do conjunto de dados), arraste até a porta de entrada de Editar metadados (o pequeno círculo na parte superior do módulo) e solte o botão do mouse. O conjunto de dados e o módulo permanecem conectados mesmo se você se mover na tela.
O experimento agora deve ser algo assim:
O ponto de exclamação vermelho indica que você ainda não definiu as propriedades para este módulo. Fará isto a seguir.
Gorjeta
Pode adicionar um comentário a um módulo, fazendo duplo clique no módulo e introduzindo o texto. Isto pode ajudá-lo a ver rapidamente o que o módulo está a fazer na sua experimentação. Nesse caso, clique duas vezes no módulo Editar metadados e digite o comentário "Adicionar cabeçalhos de coluna". Clique em qualquer outro lugar na tela para fechar a caixa de texto. Para exibir o comentário, clique na seta para baixo no módulo.
Selecione Editar metadados e, no painel Propriedades à direita da tela, clique em Iniciar seletor de coluna.
Na caixa de diálogo Selecionar colunas, selecione todas as linhas em Colunas Disponíveis e clique > para movê-las para Colunas Selecionadas. A caixa de diálogo deve ter esta aparência:
Clique na marca de seleção OK .
De volta ao painel Propriedades, procure o parâmetro Novos nomes de coluna. Neste campo, insira uma lista de nomes para as 21 colunas no conjunto de dados, separadas por vírgulas e em ordem de coluna. Você pode obter os nomes das colunas da documentação do conjunto de dados no site da UCI ou, por conveniência, pode copiar e colar a seguinte lista:
Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk
O painel Propriedades tem esta aparência:
Gorjeta
Se quiser verificar os cabeçalhos das colunas, execute o experimento (clique em EXECUTAR abaixo da tela do experimento). Quando terminar a execução (uma marca de seleção verde aparece em Editar Metadados), clique na porta de saída do módulo Editar Metadados e selecione Visualizar. Você pode visualizar a saída de qualquer módulo da mesma maneira para visualizar o progresso dos dados através do experimento.
Criar conjuntos de dados de treinamento e teste
Você precisa de alguns dados para treinar o modelo e alguns para testá-lo. Assim, na próxima etapa do experimento, você divide o conjunto de dados em dois conjuntos de dados separados: um para treinar nosso modelo e outro para testá-lo.
Para fazer isso, use o módulo Split Data .
Encontre o módulo Split Data , arraste-o para a tela e conecte-o ao módulo Edit Metadata .
Por padrão, a razão de divisão é 0,5 e o parâmetro Randomized split é definido. Isso significa que metade aleatória dos dados é saída através de uma porta do módulo Split Data e metade através da outra. Você pode ajustar esses parâmetros, bem como o parâmetro Random seed , para alterar a divisão entre dados de treinamento e teste. Neste exemplo, você os deixa como estão.
Gorjeta
A propriedade Fração de linhas no primeiro conjunto de dados de saída determina quanto dos dados é gerado através da porta de saída esquerda . Por exemplo, se você definir a proporção como 0,7, 70% dos dados serão enviados pela porta esquerda e 30% pela porta direita.
Clique duas vezes no módulo Dividir dados e digite o comentário "Dados de treinamento/teste divididos em 50%".
Você pode usar as saídas do módulo Split Data como quiser, mas vamos optar por usar a saída esquerda como dados de treinamento e a saída direita como dados de teste.
Tal como mencionado na etapa anterior, o custo da classificação incorreta de um risco de crédito elevado como baixo é cinco vezes superior ao custo da classificação incorreta de um risco de crédito baixo como elevado. Para levar em conta isso, você gera um novo conjunto de dados que reflete essa função de custo. No novo conjunto de dados, cada exemplo de alto risco é replicado cinco vezes, enquanto cada exemplo de baixo risco não é replicado.
Você pode fazer essa replicação usando o código R:
Localize e arraste o módulo Executar Script R para a tela do experimento.
Conecte a porta de saída esquerda do módulo Split Data à primeira porta de entrada ("Dataset1") do módulo Execute R Script .
Clique duas vezes no módulo Executar Script R e digite o comentário "Definir ajuste de custo".
No painel Propriedades, exclua o texto padrão no parâmetro Script R e insira este script:
dataset1 <- maml.mapInputPort(1) data.set<-dataset1[dataset1[,21]==1,] pos<-dataset1[dataset1[,21]==2,] for (i in 1:5) data.set<-rbind(data.set,pos) maml.mapOutputPort("data.set")
Você precisa fazer essa mesma operação de replicação para cada saída do módulo Split Data para que os dados de treinamento e teste tenham o mesmo ajuste de custo. A maneira mais fácil de fazer isso é duplicando o módulo Execute R Script que você acabou de fazer e conectando-o à outra porta de saída do módulo Split Data .
Clique com o botão direito do mouse no módulo Executar Script R e selecione Copiar.
Clique com o botão direito do mouse na tela do experimento e selecione Colar.
Arraste o novo módulo para a posição e, em seguida, conecte a porta de saída correta do módulo Split Data à primeira porta de entrada deste novo módulo Execute R Script .
Na parte inferior da tela, clique em Executar.
Gorjeta
A cópia do módulo Execute R Script contém o mesmo script que o módulo original. Quando você copia e cola um módulo na tela, a cópia retém todas as propriedades do original.
Nosso experimento agora é mais ou menos assim:
Para obter mais informações sobre como usar scripts R em seus experimentos, consulte Estender seu experimento com R.
Clean up resources (Limpar recursos)
Se você não precisar mais dos recursos que criou usando este artigo, exclua-os para evitar incorrer em cobranças. Saiba como no artigo, Exportar e excluir dados do usuário no produto.
Próximos passos
Neste tutorial, você concluiu estas etapas:
- Criar um espaço de trabalho do Estúdio de Aprendizado de Máquina (clássico)
- Carregar dados existentes no espaço de trabalho
- Criar uma experimentação
Agora você está pronto para treinar e avaliar modelos para esses dados.