Regressão da Floresta de Decisão
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Cria um modelo de regressão usando o algoritmo da floresta de decisão
Categoria: Modelo inicialização - Regressão
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como usar o módulo de Regressão Florestal de Decisão no Machine Learning Studio (clássico), para criar um modelo de regressão baseado num conjunto de árvores de decisão.
Depois de configurar o modelo, deve treinar o modelo utilizando um conjunto de dados rotulado e o módulo Train Model . O modelo treinado pode então ser usado para fazer previsões. Em alternativa, o modelo não treinado pode ser passado para o Modelo De Validação Cruzada para validação cruzada contra um conjunto de dados rotulado.
Como as florestas de decisão funcionam em tarefas de regressão
As árvores de decisão são modelos não paramétricos que realizam uma sequência de testes simples para cada instância, atravessando uma estrutura binária de dados de árvores até que um nó de folha (decisão) seja alcançado.
As árvores de decisão têm estas vantagens:
São eficientes tanto na computação como no uso da memória durante o treino e a previsão.
Podem representar limites de decisão não lineares.
Realizam seleção e classificação integradas de recursos e são resistentes na presença de características ruidosas.
Este modelo de regressão consiste num conjunto de árvores de decisão. Cada árvore numa decisão de regressão a floresta produz uma distribuição gaussiana como uma previsão. Uma agregação é realizada sobre o conjunto de árvores para encontrar uma distribuição gaussiana mais próxima da distribuição combinada para todas as árvores do modelo.
Para obter mais informações sobre o enquadramento teórico deste algoritmo e a sua implementação, consulte este artigo: Decisão Florestas: Um Quadro Unificado de Classificação, Regressão, Estimativa de Densidade, Aprendizagem e Semi-Supervised Aprendizagem
Como configurar o modelo de regressão florestal da decisão
Adicione o módulo de Regressão Florestal de Decisão à experiência. Pode encontrar o módulo em Studio (clássico) sob Machine Learning, Modelo Inicializ e Regressão.
Abra as propriedades do módulo e, para o método de resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre Embalar ou Replicar.
Embalamento: O embalamento também é chamado de agregação de botas. Cada árvore numa decisão de regressão a floresta produz uma distribuição gaussiana a título de previsão. A agregação é encontrar um gaussiano cujos dois primeiros momentos combinam com os momentos da mistura de gaussianos dados combinando todos os gaussianos devolvidos por árvores individuais.
Para mais informações, consulte a entrada na Wikipédia para a agregação de Bootstrap.
Replicação: Na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatório e as árvores serão diversas.
Para obter mais informações sobre o processo de formação com a opção Replicate , consulte As Florestas de Decisão para Visão Computacional e Análise de Imagem Médica. Criminisi e J. Shotton. Springer 2013.
Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .
Parâmetro único
Se sabe como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos. Pode ter aprendido estes valores experimentando ou recebido como orientação.
Intervalo de parâmetros
Se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais especificando vários valores e usando uma varredura de parâmetros para encontrar a configuração ideal.
Tune Model Hyperparameters irá iterar sobre todas as combinações possíveis das definições fornecidas e determinar a combinação de configurações que produzem os melhores resultados.
Para o número de árvores de decisão, indicar o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treino vai aumentar.
Dica
Este valor também controla o número de árvores exibidas ao visualizar o modelo treinado. se quiser ver ou imprimir uma única árvore, pode definir o valor para 1; no entanto, isto significa que apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e não serão realizadas mais iterações.
Para a profundidade máxima das árvores de decisão, escreva um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de alguma adaptação excessiva e maior tempo de treino.
Para o número de divisões aleatórias por nó, digite o número de divisões a utilizar ao construir cada nó da árvore. Uma divisão significa que as características em cada nível da árvore (nó) são divididas aleatoriamente.
Para o número mínimo de amostras por nó folha, indique o número mínimo de caixas necessárias para criar qualquer nó terminal (folha) numa árvore.
Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.
Selecione a opção Permitir valores desconhecidos para a opção de funcionalidades categóricas para criar um grupo para valores desconhecidos nos conjuntos de treino ou validação.
Se o desmarcar, o modelo só pode aceitar os valores contidos nos dados de treino. No primeiro caso, o modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).
Ligação um conjunto de dados rotulado, selecione uma única coluna de etiqueta que não contenha mais de dois resultados e ligue o Modelo de Comboio ou os Hiperparímetros do Modelo de Sintonização.
Se definir Criar a opção de modo de treinador para Single Parâmetro, treine o modelo utilizando o módulo Modelo de Comboio .
Se definir Criar a opção de modo de treinador para a gama de parâmetros, treine o modelo utilizando hiperparmetros tune model.
Execute a experimentação.
Resultados
Após o treino estar completo:
Para ver a árvore que foi criada em cada iteração, clique com a direita na saída do módulo de treino e selecione Visualize.
Para ver as regras de cada nó, clique em cada árvore e berbede nas divisões.
Para guardar uma imagem do modelo treinado, clique com o botão direito na saída do módulo de treino e selecione Save As Training Model. Esta cópia do modelo não é atualizada em sucessivas execuções da experiência.
Exemplos
Por exemplo, modelos de regressão, consulte estas experiências de amostra na Galeria de Inteligência Cortana:
Compare a amostra de Modelos de Regressão: Contrasta vários tipos diferentes de modelos de regressão.
Amostra de análise de sentimento: Utiliza vários modelos de regressão diferentes para gerar classificações previsíveis.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Se passar uma gama de parâmetros para o Modelo de Comboio, utilizará apenas o primeiro valor na lista de parâmetros.
Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.
Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado será utilizado ao longo da varredura, mesmo que outros parâmetros se alterem numa gama de valores.
Dicas de utilização
Se tiver dados limitados ou quiser minimizar o tempo gasto a treinar o modelo, experimente estas definições:
Conjunto de treino limitado. Se o conjunto de formação contiver um número limitado de casos:
Criar a floresta de decisão utilizando um grande número de árvores de decisão (por exemplo, mais de 20)
Utilize a opção de embalamento para resampling
Especificar um grande número de divisões aleatórias por nó (por exemplo, mais de 1000)
Tempo limitado de treino. Se o conjunto de formação contiver um grande número de casos e o tempo de treino for limitado:
Criar a floresta de decisão utilizando menos árvores de decisão (por exemplo, 5-10)
Utilize a opção Replicar para resampling
Especificar um pequeno número de divisões aleatórias por nó (por exemplo, menos de 100)
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Método de resampling | qualquer | ResamplingMethod | Embalamento | Escolha um método de resampling |
Número de árvores de decisão | >=1 | Número inteiro | 8 | Especificar o número de decisão que as árvores devem criar no conjunto |
Profundidade máxima das árvores de decisão | >=1 | Número inteiro | 32 | Especifique a profundidade máxima de qualquer árvore de decisão que possa ser criada no conjunto |
Número de divisões aleatórias por nó | >=1 | Número inteiro | 128 | Especificar o número de divisões geradas por nó, a partir do qual é selecionada a divisão ideal |
Número mínimo de amostras por nó de folha | >=1 | Número inteiro | 1 | Especificar o número mínimo de amostras de treino necessárias para gerar um nó folha |
Permitir valores desconhecidos para características categóricas | qualquer | Booleano | true | Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional |
Saídas
Nome | Tipo | Description |
---|---|---|
Modelo destreinado | Interface ILearner | Um modelo de regressão sem treino |