Compartilhar via


Regressão Logística Multiclasse

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de classificação de regressão logística multiclasse

categoria: Machine Learning/inicializar modelo/classificação

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo regressão logística multiclasse no Machine Learning Studio (clássico) para criar um modelo de regressão logística que pode ser usado para prever vários valores.

A classificação usando a regressão logística é um método de aprendizado supervisionado e, portanto, requer um conjunto de informações rotulado. Você treina o modelo fornecendo o modelo e o conjunto de dados rotulado como uma entrada para um módulo como treinar modelo ou ajustar hiperparâmetros de modelo. O modelo treinado pode então ser usado para prever valores para novos exemplos de entrada.

o Machine Learning Studio (clássico) também fornece um módulo de regressão logística de duas classes , que é adequado para a classificação de variáveis binárias ou dicotômicass.

Mais sobre a regressão logística multiclasse

A regressão logística é um método bem conhecido em estatísticas que é usado para prever a probabilidade de um resultado e é particularmente popular para tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento ajustando dados para uma função logística. Para obter detalhes dessa implementação, consulte a seção Notas Técnicas.

Na regressão logística multiclasse, o classificador pode ser usado para prever resultados múltiplos.

Como configurar uma regressão logística multiclasse

  1. Adicione o módulo regressão logística multiclasse ao experimento.

  2. Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.

    • Parâmetro único: use essa opção se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Use essa opção se você não tiver certeza dos melhores parâmetros e quiser usar uma limpeza de parâmetro.

  3. Tolerância de otimização, especifique o valor de limite para a convergência do otimizador. Se a melhoria entre as iterações for menor que o limite, o algoritmo para e retorna o modelo atual.

  4. Peso de regularização L1 , peso de regularização L2: digite um valor a ser usado para os parâmetros de regularização L1 e L2. Um valor diferente de zero é recomendado para ambos.

    A Regularização é um método para evitar o sobreajuste prejudicando modelos com valores extremos. A regularização funciona adicionando a penalidade associada aos valores de coeficiente ao erro da hipótese. Um modelo preciso com valores de coeficiente extremo seria mais penalizado, mas um modelo menos preciso com valores mais conservadores seria menos penalizado.

    As regularizações L1 e L2 têm efeitos e usos diferentes. L1 pode ser aplicado aos modelos esparsos, que é útil ao trabalhar com dados de grande dimensão. Por outro lado, a regularização L2 é preferível para dados que não são esparsos. Este algoritmo dá suporte a uma combinação linear de valores de regularização L1 e L2: ou seja, se x = L1 e y = L2, ax + by = c define o intervalo linear dos termos de regularização.

    Combinações lineares diferentes dos termos de L1 e L2 foram elaborados para modelos de regressão logística: por exemplo, regularização de rede elástica.

  5. Tamanho da memória para l-BFGS: Especifique a quantidade de memória a ser usada para a otimização de l-BFGS . Esse parâmetro indica o número de posições anteriores e gradientes a armazenar o cálculo da próxima etapa.

    L-BFGS significa memória limitada Broyden-Fletcher Goldfarb Shanno e é um algoritmo de otimização conhecido pela estimativa de parâmetro. Esse parâmetro de otimização limita a quantidade de memória usada para calcular a próxima etapa e direção. Quando você especifica menos memória, o treinamento é mais rápido, mas menos preciso.

  6. Semente de número aleatório: digite um valor inteiro para usar como a semente do algoritmo se desejar que os resultados sejam repetidos em execuções. Caso contrário, um valor de relógio do sistema será usado como semente, o que pode produzir resultados ligeiramente diferentes em execuções do mesmo experimento.

  7. Permitir níveis categóricos desconhecidos: Selecione esta opção para criar um nível "desconhecido" adicional em cada coluna categórica. Quaisquer valores (níveis) no conjunto de teste que não estão presentes no conjunto de testes de treinamento são mapeados para esse nível "desconhecido".

  8. Conexão um dataset rotulado e um dos módulos de treinamento:

    • Se você configurar Criar modo treinador como Parâmetro único, use o módulo Treinar modelo.

    • Se você configurar Criar modo treinador como Intervalo de parâmetros, use o módulo Ajustar hiperparâmetros do modelo. Com essa opção, você pode especificar vários valores, e o instrutor itera em várias combinações das configurações para determinar a combinação de valores que produz o melhor modelo.

    Observação

    Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

    Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

    Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  9. Execute o experimento.

Resultados

Após a conclusão do treinamento:

  • Para ver um resumo dos parâmetros do modelo, junto com os pesos de recursos aprendidos no treinamento, clique com o botão direito do mouse na saída do módulo modelo de treinamento ou ajuste hiperparâmetros de modeloe selecione Visualizar.

Exemplos

Para obter exemplos de como esse algoritmo de aprendizado é usado, consulte o Galeria de ia do Azure:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Você gostaria de saber mais sobre a regularização de L1 e L2? O artigo a seguir fornece uma discussão de como a regularização L1 e L2 é diferente e como elas afetam o ajuste de modelo, com exemplos de código para modelos de rede neural e regressão logística.

Para obter mais informações sobre a implementação desse algoritmo, consulte:

Detalhes de implementação

A regressão logística requer variáveis numéricas. portanto, quando você tenta usar colunas categóricas como uma variável, Machine Learning converte os valores em uma matriz de indicador internamente.

Para datas e horas, é usada uma representação numérica. Para obter mais informações sobre valores de data e hora, consulte estrutura DateTime .NET Framework. Se você quiser manipular datas e horas de forma diferente, sugerimos que você crie uma coluna derivada.

A regressão logística padrão é binomial e assume duas classes de saída. A regressão logística multiclasse ou multinomial pressupõe três ou mais classes de saída.

A regressão logística binomial pressupõe uma distribuição logística dos dados, em que a probabilidade de um exemplo pertencer à classe 1 é a fórmula:

p(x;β0,…, βD-1)

Em que:

  • x é um vetor D-dimensional que contém os valores de todos os recursos da instância.

  • p é a função de distribuição logística.

  • β{0},..., β {D-1} são os parâmetros desconhecidos da distribuição logística.

O algoritmo tenta encontrar os valores ideais para β{0},..., β {D-1} maximizando a probabilidade de log dos parâmetros de acordo com as entradas. A maximização é executada usando um método popular para a estimativa de parâmetro, chamado de BFGS de memória limitada.

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Tolerância de otimização >=double.Epsilon Float 0.0000001 Especifique um valor de tolerância para o otimizador L-BFGS
Peso de regularização L1 >=0,0 Float 1,0 Especifica o peso de regularização L1. Use um valor diferente de zero para evitar o sobreajuste.
Peso da regularização L2 >=0,0 Float 1,0 Especifique o peso da regularização L2. Use um valor diferente de zero para evitar o sobreajuste.
Tamanho da memória para L-BFGS >=1 Integer 20 Especifique a quantidade de memória (em MB) a ser usada para o otimizador L-BFGS. Quando é usada menos memória, o treinamento é mais rápido, porém menos preciso.
Propagação de número aleatório Qualquer Integer Digite um valor para propagar o gerador de número aleatório usado pelo modelo. Deixe em branco para o padrão.
Permitir níveis categóricos desconhecidos Qualquer Booliano verdadeiro Indique se um nível adicional deve ser criado para cada coluna categórica. Quaisquer níveis no conjunto de dados teste que não estão disponíveis no conjunto de dados de treinamento são mapeados para este nível adicional.

Saídas

Nome Tipo Descrição
Modelo não treinado Interface ILearner Um modelo de classificação não treinado

Confira também

Classificação
Regressão Logística de Duas Classes
Lista de Módulo A-Z