Selva de decisão de duas classes

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de classificação de duas classes usando o algoritmo de floresta de decisão

Categoria: Machine Learning/Inicializar modelo/classificação

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo De decisão de duas classes do Machine Learning Studio (clássico) para criar um modelo de machine learning baseado em um algoritmo de aprendizado de ensemble supervisionado chamado florestas de decisão.

O módulo Floresta de Decisão de Duas Classes retorna um classificador não treinado. Em seguida, treine esse modelo em um conjunto de dados de treinamento rotulado usando Treinar Modelo ou Ajustar Hiperparámetros de Modelo. O modelo treinado pode então ser usado para fazer previsões.

Mais sobre as florestas de decisão

As florestas de decisão são uma extensão recente para florestas de decisão. Uma selva de decisão consiste em um ensemble de grafos acíclicos direcionado de decisão (DAGs).

As florestas de decisão têm as seguintes vantagens:

Ao permitir a mesclagem de branches de árvore, um DAG de decisão normalmente tem um menor espaço de memória e um melhor desempenho de generalização do que uma árvore de decisão, embora com um tempo de treinamento um pouco maior.
As selvas de decisão são modelos não paramétricos que podem representar limites de decisão não lineares.
Realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos com ruídos.

Dica

Para obter mais informações sobre a pesquisa por trás desse algoritmo de aprendizado de máquina, consulte Florestas de decisão: modelos compactos e avançados para classificação (PDF para download).

Como configurar o Two-Class Decision

Adicione o módulo Floresta de Decisão de Duas Classes ao seu experimento no Studio (clássico).
Para o Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre Bagging ou Replicar.
- Ressarçamento: selecione esta opção para usar a decodagem, também chamada de agreging de inicialização.
  
  Cada árvore em uma árvore de decisão de saída de uma distribuição gaussiana como previsão. A agregação é encontrar um gaussiano cujos primeiros dois instantes corresponderem aos momentos da combinação de gaussianos fornecidas combinando todos os gaussianos retornados por árvores individuais.
- Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório e as árvores serão diversificadas.
  
  Para obter mais informações, consulte Florestas de decisão para Pesquisa Visual Computacional análise de imagem médica. Criminisi e J. Shotton. Springer 2013.
Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.
- Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.
- Intervalo de Parâmetros: se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais especificando vários valores e usando o módulo Ajustar Hiperparmetros do Modelo para encontrar a configuração ideal. O treinador iterará em várias combinações das configurações fornecidas e determinará a combinação de valores que produz o melhor modelo.
Para Número de DAGs de decisão, indique o número máximo de grafos que podem ser criados no ensemble.
Para Profundidade máxima dos DAGs de decisão, indique a profundidade máxima de cada grafo.
Para Largura máxima dos DAGs de decisão, indique a largura máxima de cada grafo.
Em Número de etapas de otimização por camada de DAG de decisão, indique quantas ierções sobre os dados executar ao criar cada DAG.
Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo para valores desconhecidos em dados de teste ou validação.

Se você desmarcá-la, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento. No primeiro caso, o modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).
Adicione um conjuntos de dados marcado ao experimento e conecte um dos módulos de treinamento.
- Se você configurar Criar modo treinador como Parâmetro único, use o módulo Treinar modelo.
- Se você configurar Criar modo treinador como Intervalo de parâmetros, use o módulo Ajustar hiperparâmetros do modelo.
Observação

Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Resultados

Após a conclusão do treinamento:

Para usar o modelo para pontuação, conecte-o ao Modelo de Pontuação para prever valores para novos exemplos de entrada.

Exemplos

Para exemplos de como as florestas de decisão são usadas no aprendizado de máquina, consulte a Galeria de IA do Azure:

Comparar classificadores binários: usa vários algoritmos e discute seus prós e contras.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

Se você tiver dados limitados ou quiser minimizar o tempo gasto treinando o modelo, experimente essas configurações.

Conjunto de treinamento limitado

Se o conjunto de treinamento for pequeno:

Crie a selva de decisão usando um grande número de DAGs de decisão (por exemplo, mais de 20).
Use a opção Bagging para reamostragem.
Especifique um grande número de etapas de otimização por camada de DAG (por exemplo, mais de 10.000).

Tempo de treinamento limitado

Se o conjunto de treinamento for grande, mas o tempo de treinamento for limitado:

Crie a selva de decisão usando um número menor de DAGs de decisão (por exemplo, de 5 a 10).
Use a opção Replicar para reamostragem.
Especifique um número menor de etapas de otimização por camada de DAG (por exemplo, mais de 2.000).

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Método de reamostragem	Qualquer	ResamplingMethod	Bagging	Escolha um método de reamostragem
Número de DAGs de decisão	>=1	Integer	8	Especifique o número de gráficos de decisão a serem criados no ensemble
Profundidade máxima dos DAGs de decisão	>=1	Integer	32	Especifique a profundidade máxima dos gráficos de decisão no ensemble
Largura máxima dos DAGs de decisão	>=8	Inteiro	128	Especifique a largura máxima dos gráficos de decisão no ensemble
Número de etapas de otimização por camada de DAG de decisão	>=1000	Inteiro	2.048	Especifique o número de etapas usadas para otimização de cada nível dos gráficos de decisão
Permitir valores desconhecidos para recursos categóricos	Qualquer	Booliano	verdadeiro	Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saída

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de classificação binária não treinado

Confira também

Classificação
Selva de decisão multiclasse
Lista de Módulo A-Z

Compartilhar via