Partilhar via


Componente de regressão da árvore de decisão impulsionada

Este artigo descreve um componente no designer do Azure Machine Learning.

Use este componente para criar um conjunto de árvores de regressão usando o boosting. Impulsionar significa que cada árvore depende de árvores anteriores. O algoritmo aprende encaixando o resíduo das árvores que o precederam. Assim, impulsionar em um conjunto de árvore de decisão tende a melhorar a precisão com algum pequeno risco de menor cobertura.

Este componente é baseado no algoritmo LightGBM.

Este método de regressão é um método de aprendizagem supervisionada e, portanto, requer um conjunto de dados rotulado. A coluna do rótulo deve conter valores numéricos.

Nota

Use este componente somente com conjuntos de dados que usam variáveis numéricas.

Depois de definir o modelo, treine-o usando o Modelo de Trem.

Mais sobre árvores de regressão impulsionadas

Impulsionar é um dos vários métodos clássicos para criar modelos de conjunto, juntamente com ensacamento, florestas aleatórias e assim por diante. No Azure Machine Learning, as árvores de decisão impulsionadas usam uma implementação eficiente do algoritmo de aumento de gradiente MART. O aumento de gradiente é uma técnica de aprendizado de máquina para problemas de regressão. Ele constrói cada árvore de regressão de forma gradual, usando uma função de perda predefinida para medir o erro em cada etapa e corrigi-lo na próxima. Assim, o modelo de previsão é, na verdade, um conjunto de modelos de previsão mais fracos.

Em problemas de regressão, o impulsionamento constrói uma série de árvores de forma gradual e, em seguida, seleciona a árvore ideal usando uma função de perda diferenciável arbitrária.

Para obter informações adicionais, consulte estes artigos:

O método de aumento de gradiente também pode ser usado para problemas de classificação, reduzindo-os a regressão com uma função de perda adequada. Para obter mais informações sobre a implementação de árvores impulsionadas para tarefas de classificação, consulte Árvore de decisão impulsionada de duas classes.

Como configurar a regressão da árvore de decisão impulsionada

  1. Adicione o componente Árvore de Decisão Impulsionada ao seu pipeline. Você pode encontrar esse componente em Machine Learning, Initialize, na categoria Regressão .

  2. Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.

    • Parâmetro único: selecione esta opção se souber como deseja configurar o modelo e forneça um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: selecione esta opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.

  3. Número máximo de folhas por árvore: Indique o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.

    Ao aumentar esse valor, você potencialmente aumenta o tamanho da árvore e obtém melhor precisão, sob o risco de sobreajuste e maior tempo de treinamento.

  4. Número mínimo de amostras por nó foliar: Indicar o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos 5 casos que atendam às mesmas condições.

  5. Taxa de aprendizagem: digite um número entre 0 e 1 que defina o tamanho da etapa durante a aprendizagem. A taxa de aprendizagem determina a rapidez ou lentidão com que o/a aluno/a converge para a solução ideal. Se o tamanho da etapa for muito grande, você pode ultrapassar a solução ideal. Se o tamanho do passo for muito pequeno, o treinamento leva mais tempo para convergir para a melhor solução.

  6. Número de árvores construídas: Indique o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento aumenta.

    Se você definir o valor como 1; no entanto, apenas uma árvore é produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma outra iteração é executada.

  7. Semente de número aleatório: digite um inteiro não negativo opcional para usar como o valor de semente aleatório. A especificação de uma semente garante a reprodutibilidade em execuções que têm os mesmos dados e parâmetros.

    Por padrão, a semente aleatória é definida como 0, o que significa que o valor inicial da semente é obtido a partir do relógio do sistema.

  8. Treine o modelo:

    • Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .

    • Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Nota

    Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.

    Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  9. Envie o pipeline.

Resultados

Após a conclusão da formação:

  • Para usar o modelo para pontuação, conecte Train Model to Score Model, para prever valores para novos exemplos de entrada.

  • Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do modelo treinado e clique no ícone Registrar conjunto de dados. A cópia do modelo treinado será salva como um componente na árvore de componentes e não será atualizada em execuções sucessivas do pipeline.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.