Regressão da Árvore de Decisões Elevada
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Cria um modelo de regressão usando o algoritmo da Árvore da Decisão Reforçada
Categoria: Machine Learning / Modelo inicializo / Regressão
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como usar o módulo de regressão da árvore de decisão aumentada no Machine Learning Studio (clássico), para criar um conjunto de árvores de regressão usando o reforço. Aumentar significa que cada árvore depende de árvores anteriores. O algoritmo aprende encaixando o residual das árvores que o precederam. Assim, impulsionar num conjunto de árvores de decisão tende a melhorar a precisão com algum pequeno risco de menor cobertura.
Este método de regressão é um método de aprendizagem supervisionado e, portanto, requer um conjunto de dados rotulado. A coluna da etiqueta deve conter valores numéricos.
Nota
Utilize este módulo apenas com conjuntos de dados que utilizam variáveis numéricas.
Depois de definir o modelo, treine-o utilizando os módulos Train Model ou Tune Model Hyperparameters .
Dica
Quer saber mais sobre as árvores que foram criadas? Depois de o modelo ter sido treinado, clique à direita na saída do módulo Train Model (ou módulo Tune Model Hyperparameters ) e selecione Visualize para ver a árvore que foi criada em cada iteração. Pode perfurar as fendas para cada árvore e ver as regras de cada nó.
Mais sobre árvores de regressão reforçada
Impulsionar é um dos vários métodos clássicos para criar modelos de conjunto, juntamente com o embalamento, florestas aleatórias, e assim por diante. Em Machine Learning Studio (clássico), as árvores de decisão impulsionadas usam uma implementação eficiente do algoritmo de aumento de gradiente MART. O aumento do gradiente é uma técnica de aprendizagem automática para problemas de regressão. Constrói cada árvore de regressão de forma passo a passo, utilizando uma função de perda predefinida para medir o erro em cada passo e corrigir para ele no próximo. Assim, o modelo de previsão é na verdade um conjunto de modelos de previsão mais fracos.
Em problemas de regressão, impulsionar constrói uma série de árvores de forma passo a passo, e depois seleciona a árvore ideal usando uma função de perda arbitrária diferenciada.
Para obter informações adicionais, consulte estes artigos:
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
Este artigo da Wikipedia sobre o aumento do gradiente fornece algum fundo em árvores impulsionadas.
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft Research: De RankNet a LambdaRank a LambdaMART: Uma visão geral. Por J.C. Burges.
O método de aumento do gradiente também pode ser usado para problemas de classificação, reduzindo-os à regressão com uma função de perda adequada. Para obter mais informações sobre a implementação das árvores reforçadas para tarefas de classificação, consulte a Árvore de Decisão Reforçada de Duas Classes.
Como configurar a regressão da árvore de decisão reforçada
Adicione o módulo Árvore de Decisão Reforçada à sua experiência. Pode encontrar este módulo sob Machine Learning, Initialize, na categoria Regressão.
Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .
Parâmetro único: Selecione esta opção se souber como pretende configurar o modelo e fornecer um conjunto específico de valores como argumentos.
Intervalo de parâmetros: Selecione esta opção se não tiver a certeza dos melhores parâmetros e pretender fazer uma varredura de parâmetros. Selecione uma gama de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das definições fornecidas para determinar os hiperparmetros que produzem os melhores resultados.
Número máximo de folhas por árvore: Indicar o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.
Ao aumentar este valor, você potencialmente aumenta o tamanho da árvore e obtém uma melhor precisão, correndo o risco de sobremontagem e tempo de treino mais longo.
Número mínimo de amostras por nó folha: Indicar o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.
Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.
Aprendizagem taxa: Digite um número entre 0 e 1 que define o tamanho do passo durante a aprendizagem. A taxa de aprendizagem determina a rapidez ou a lentidão com que o aluno converge na solução ideal. Se o tamanho do passo for demasiado grande, poderá ultrapassar a solução ideal. Se o tamanho do degrau for muito pequeno, o treino demora mais tempo a convergir para a melhor solução.
Número de árvores construídas: Indicar o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treino aumenta.
Este valor também controla o número de árvores exibidas ao visualizar o modelo treinado. se quiser ver ou imprimir uma árvore de ingle, pode definir o valor para 1; no entanto, isto significa que apenas uma árvore é produzida (a árvore com o conjunto inicial de parâmetros) e não são realizadas mais iterações.
Semente de número aleatório: Digite um número inteiro opcional não negativo para usar como valor de sementes aleatórias. Especificar uma semente garante a reprodutibilidade em todas as corridas que têm os mesmos dados e parâmetros.
Por predefinição, a semente aleatória é definida para 0, o que significa que o valor inicial da semente é obtido a partir do relógio do sistema.
Permitir níveis categóricos desconhecidos: Selecione esta opção para criar um grupo para valores desconhecidos nos conjuntos de treino e validação. Se desmarcar esta opção, o modelo só pode aceitar os valores contidos nos dados de treino. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).
Adicione um conjunto de dados de formação, e um dos módulos de treino:
Se definir Criar a opção de modo de treinador para o Único Parâmetro, utilize o módulo Modelo de Comboio .
Se definir Criar modo de treinador para intervalo de parâmetros, utilize o módulo de hiperparametros do modelo de melodia .
Nota
Se passar uma gama de parâmetros para o Modelo de Comboio, utiliza apenas o primeiro valor na lista de parâmetros.
Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.
Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem através de uma gama de valores.
Execute a experimentação.
Resultados
Após o treino estar completo:
Para ver a árvore que foi criada em cada iteração, clique com o botão direito módulo Modelo de Trem e selecione modelo treinado para visualizar. Se utilizar hiperparmetros Tune Model, clique em linha com o módulo e selecione o melhor modelo treinado para visualizar o melhor modelo.
Clique em cada árvore para perfurar as divisões e ver as regras de cada nó.
Para utilizar o modelo para pontuar, conecte-o ao Modelo de Pontuação, para prever valores para novos exemplos de entrada.
Para guardar uma imagem do modelo treinado, clique com o botão direito na saída do modelo treinado do módulo de treino e selecione Save As. A cópia do modelo treinado que poupa não é atualizada em sucessivas execuções da experiência.
Exemplos
Por exemplo, como as árvores impulsionadas são usadas na aprendizagem automática, consulte a Galeria Azure AI:
Estimativa da procura: Utiliza regressão da árvore de decisão reforçada para prever o número de alugueres por um determinado momento.
Análise de sentimento no Twitter: Usa a regressão para gerar uma classificação prevista.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Dica
Em geral, as árvores de decisão produzem melhores resultados quando as características estão um pouco relacionadas. Se as características tiverem um grande grau de entropia (isto é, não estão relacionadas), partilham pouca ou nenhuma informação mútua, e encomendar-lhes numa árvore não produzirá muito significado preditivo.
Detalhes de implementação
O conjunto de árvores é produzido pela computação, em cada passo, uma árvore de regressão que aproxima o gradiente da função de perda, e adicioná-la à árvore anterior com coeficientes que minimizam a perda da nova árvore. A saída do conjunto produzido pela MART num dado caso é a soma das saídas das árvores.
Para o problema de classificação binária, a saída é convertida em probabilidade usando alguma forma de calibração.
Para problemas de regressão, a saída é o valor previsto da função.
Para problemas de classificação, os casos são ordenados pelo valor de saída do conjunto.
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Número máximo de folhas por árvore | >=1 | Número inteiro | 20 | Especificar o número máximo de folhas por árvore |
Número mínimo de amostras por nó de folha | >=1 | Número inteiro | 10 | Especificar o número mínimo de casos necessários para formar um nó folha |
Taxa de aprendizagem | [Duplo. Epsilon;1.0] | Float | 0,2 | Especificar a taxa de aprendizagem inicial |
Número total de árvores construídas | >=1 | Número inteiro | 100 | Especificar o número máximo de árvores que podem ser criadas durante o treino |
Semente de número aleatório | qualquer | Número inteiro | Forneça uma semente para o gerador de números aleatórios utilizado pelo modelo. Deixe em branco por defeito. | |
Permitir níveis categóricos desconhecidos | qualquer | Booleano | true | Se for verdade, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treino são mapeados para este nível adicional. |
Saídas
Nome | Tipo | Description |
---|---|---|
Modelo destreinado | Interface ILearner | Um modelo de regressão sem treino |