Partilhar via


Regressão da Árvore de Decisões Elevada

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de regressão usando o algoritmo da Árvore da Decisão Reforçada

Categoria: Machine Learning / Modelo inicializo / Regressão

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo de regressão da árvore de decisão aumentada no Machine Learning Studio (clássico), para criar um conjunto de árvores de regressão usando o reforço. Aumentar significa que cada árvore depende de árvores anteriores. O algoritmo aprende encaixando o residual das árvores que o precederam. Assim, impulsionar num conjunto de árvores de decisão tende a melhorar a precisão com algum pequeno risco de menor cobertura.

Este método de regressão é um método de aprendizagem supervisionado e, portanto, requer um conjunto de dados rotulado. A coluna da etiqueta deve conter valores numéricos.

Nota

Utilize este módulo apenas com conjuntos de dados que utilizam variáveis numéricas.

Depois de definir o modelo, treine-o utilizando os módulos Train Model ou Tune Model Hyperparameters .

Dica

Quer saber mais sobre as árvores que foram criadas? Depois de o modelo ter sido treinado, clique à direita na saída do módulo Train Model (ou módulo Tune Model Hyperparameters ) e selecione Visualize para ver a árvore que foi criada em cada iteração. Pode perfurar as fendas para cada árvore e ver as regras de cada nó.

Mais sobre árvores de regressão reforçada

Impulsionar é um dos vários métodos clássicos para criar modelos de conjunto, juntamente com o embalamento, florestas aleatórias, e assim por diante. Em Machine Learning Studio (clássico), as árvores de decisão impulsionadas usam uma implementação eficiente do algoritmo de aumento de gradiente MART. O aumento do gradiente é uma técnica de aprendizagem automática para problemas de regressão. Constrói cada árvore de regressão de forma passo a passo, utilizando uma função de perda predefinida para medir o erro em cada passo e corrigir para ele no próximo. Assim, o modelo de previsão é na verdade um conjunto de modelos de previsão mais fracos.

Em problemas de regressão, impulsionar constrói uma série de árvores de forma passo a passo, e depois seleciona a árvore ideal usando uma função de perda arbitrária diferenciada.

Para obter informações adicionais, consulte estes artigos:

O método de aumento do gradiente também pode ser usado para problemas de classificação, reduzindo-os à regressão com uma função de perda adequada. Para obter mais informações sobre a implementação das árvores reforçadas para tarefas de classificação, consulte a Árvore de Decisão Reforçada de Duas Classes.

Como configurar a regressão da árvore de decisão reforçada

  1. Adicione o módulo Árvore de Decisão Reforçada à sua experiência. Pode encontrar este módulo sob Machine Learning, Initialize, na categoria Regressão.

  2. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .

    • Parâmetro único: Selecione esta opção se souber como pretende configurar o modelo e fornecer um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Selecione esta opção se não tiver a certeza dos melhores parâmetros e pretender fazer uma varredura de parâmetros. Selecione uma gama de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das definições fornecidas para determinar os hiperparmetros que produzem os melhores resultados.

  3. Número máximo de folhas por árvore: Indicar o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.

    Ao aumentar este valor, você potencialmente aumenta o tamanho da árvore e obtém uma melhor precisão, correndo o risco de sobremontagem e tempo de treino mais longo.

  4. Número mínimo de amostras por nó folha: Indicar o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.

  5. Aprendizagem taxa: Digite um número entre 0 e 1 que define o tamanho do passo durante a aprendizagem. A taxa de aprendizagem determina a rapidez ou a lentidão com que o aluno converge na solução ideal. Se o tamanho do passo for demasiado grande, poderá ultrapassar a solução ideal. Se o tamanho do degrau for muito pequeno, o treino demora mais tempo a convergir para a melhor solução.

  6. Número de árvores construídas: Indicar o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treino aumenta.

    Este valor também controla o número de árvores exibidas ao visualizar o modelo treinado. se quiser ver ou imprimir uma árvore de ingle, pode definir o valor para 1; no entanto, isto significa que apenas uma árvore é produzida (a árvore com o conjunto inicial de parâmetros) e não são realizadas mais iterações.

  7. Semente de número aleatório: Digite um número inteiro opcional não negativo para usar como valor de sementes aleatórias. Especificar uma semente garante a reprodutibilidade em todas as corridas que têm os mesmos dados e parâmetros.

    Por predefinição, a semente aleatória é definida para 0, o que significa que o valor inicial da semente é obtido a partir do relógio do sistema.

  8. Permitir níveis categóricos desconhecidos: Selecione esta opção para criar um grupo para valores desconhecidos nos conjuntos de treino e validação. Se desmarcar esta opção, o modelo só pode aceitar os valores contidos nos dados de treino. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

  9. Adicione um conjunto de dados de formação, e um dos módulos de treino:

    Nota

    Se passar uma gama de parâmetros para o Modelo de Comboio, utiliza apenas o primeiro valor na lista de parâmetros.

    Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

    Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem através de uma gama de valores.

  10. Execute a experimentação.

Resultados

Após o treino estar completo:

  • Para ver a árvore que foi criada em cada iteração, clique com o botão direito módulo Modelo de Trem e selecione modelo treinado para visualizar. Se utilizar hiperparmetros Tune Model, clique em linha com o módulo e selecione o melhor modelo treinado para visualizar o melhor modelo.

    Clique em cada árvore para perfurar as divisões e ver as regras de cada nó.

  • Para utilizar o modelo para pontuar, conecte-o ao Modelo de Pontuação, para prever valores para novos exemplos de entrada.

  • Para guardar uma imagem do modelo treinado, clique com o botão direito na saída do modelo treinado do módulo de treino e selecione Save As. A cópia do modelo treinado que poupa não é atualizada em sucessivas execuções da experiência.

Exemplos

Por exemplo, como as árvores impulsionadas são usadas na aprendizagem automática, consulte a Galeria Azure AI:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dica

Em geral, as árvores de decisão produzem melhores resultados quando as características estão um pouco relacionadas. Se as características tiverem um grande grau de entropia (isto é, não estão relacionadas), partilham pouca ou nenhuma informação mútua, e encomendar-lhes numa árvore não produzirá muito significado preditivo.

Detalhes de implementação

O conjunto de árvores é produzido pela computação, em cada passo, uma árvore de regressão que aproxima o gradiente da função de perda, e adicioná-la à árvore anterior com coeficientes que minimizam a perda da nova árvore. A saída do conjunto produzido pela MART num dado caso é a soma das saídas das árvores.

  • Para o problema de classificação binária, a saída é convertida em probabilidade usando alguma forma de calibração.

  • Para problemas de regressão, a saída é o valor previsto da função.

  • Para problemas de classificação, os casos são ordenados pelo valor de saída do conjunto.

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Número máximo de folhas por árvore >=1 Número inteiro 20 Especificar o número máximo de folhas por árvore
Número mínimo de amostras por nó de folha >=1 Número inteiro 10 Especificar o número mínimo de casos necessários para formar um nó folha
Taxa de aprendizagem [Duplo. Epsilon;1.0] Float 0,2 Especificar a taxa de aprendizagem inicial
Número total de árvores construídas >=1 Número inteiro 100 Especificar o número máximo de árvores que podem ser criadas durante o treino
Semente de número aleatório qualquer Número inteiro Forneça uma semente para o gerador de números aleatórios utilizado pelo modelo. Deixe em branco por defeito.
Permitir níveis categóricos desconhecidos qualquer Booleano true Se for verdade, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treino são mapeados para este nível adicional.

Saídas

Nome Tipo Description
Modelo destreinado Interface ILearner Um modelo de regressão sem treino

Ver também

Lista de Módulos A-Z
Regressão