Componente Regressão da Floresta de Decisão
Este artigo descreve um componente no designer do Azure Machine Learning.
Use esse componente para criar um modelo de regressão baseado em um conjunto de árvores de decisão.
Depois de configurar o modelo, você deve treiná-lo usando um conjunto de dados rotulado e o componente Train Model . O modelo treinado pode então ser usado para fazer previsões.
Como funciona
As árvores de decisão são modelos não paramétricos que executam uma sequência de testes simples para cada instância, percorrendo uma estrutura de dados de árvore binária até que um nó folha (decisão) seja alcançado.
As árvores de decisão têm estas vantagens:
Eles são eficientes tanto na computação quanto no uso de memória durante o treinamento e a previsão.
Podem representar limites de decisão não lineares.
Eles realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos barulhentos.
Este modelo de regressão consiste num conjunto de árvores de decisão. Cada árvore em uma floresta de decisão de regressão produz uma distribuição gaussiana como uma previsão. Uma agregação é realizada sobre o conjunto de árvores para encontrar uma distribuição gaussiana mais próxima da distribuição combinada para todas as árvores no modelo.
Para obter mais informações sobre a estrutura teórica para esse algoritmo e sua implementação, consulte este artigo: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning
Como configurar o Modelo de Regressão de Floresta de Decisão
Adicione o componente Regressão da Floresta de Decisão ao pipeline. Você pode encontrar o componente no designer em Machine Learning, Initialize Model e Regression.
Abra as propriedades do componente e, para o método Resample, escolha o método usado para criar as árvores individuais. Você pode escolher entre Ensacamento ou Replicar.
Ensacamento: O ensacamento também é chamado de agregação de bootstrap. Cada árvore em uma floresta de decisão de regressão produz uma distribuição gaussiana por meio de previsão. A agregação é encontrar um Gaussiano cujos dois primeiros momentos correspondam aos momentos da mistura de distribuições Gaussianas dadas pela combinação de todas as distribuições retornadas por árvores individuais.
Para obter mais informações, consulte a entrada da Wikipédia para agregação de bootstrap.
Replicar: na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatória e as árvores serão diversas.
Para obter mais informações sobre o processo de treinamento com a opção Replicar , consulte Florestas de decisão para visão computacional e análise de imagens médicas. Criminisi e J. Shotton. Springer 2013..
Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.
Parâmetro único
Se você souber como deseja configurar o modelo, poderá fornecer um conjunto específico de valores como argumentos. Você pode ter aprendido esses valores por experimentação ou recebido como orientação.
Intervalo de parâmetros: selecione esta opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.
Em Número de árvores de decisão, indique o número total de árvores de decisão a serem criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento aumentará.
Gorjeta
Se você definir o valor como 1; no entanto, isso significa que apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma outra iteração será executada.
Em Profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de algum sobreajuste e aumento do tempo de treino.
Em Número de divisões aleatórias por nó, digite o número de divisões a serem usadas ao construir cada nó da árvore. Uma divisão significa que as características em cada nível da árvore (nó) são divididas aleatoriamente.
Para Número mínimo de amostras por nó foliar, indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.
Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendam às mesmas condições.
Treine o modelo:
Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .
Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Nota
Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.
Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.
Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Envie o pipeline.
Resultados
Após a conclusão da formação:
- Para salvar um instantâneo do modelo treinado, selecione o componente de treinamento e alterne para a guia Saídas no painel direito. Clique no ícone Registar modelo. Você pode encontrar o modelo salvo como um componente na árvore de componentes.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.