Componente Floresta de Decisão de Duas Classes
Este artigo descreve um componente no designer do Azure Machine Learning.
Use este componente para criar um modelo de aprendizado de máquina com base no algoritmo de florestas de decisão.
As florestas de decisão são modelos de conjunto rápidos e supervisionados. Este componente é uma boa escolha se você quiser prever um alvo com um máximo de dois resultados.
Compreender as florestas de decisão
Este algoritmo de floresta de decisão é um método de aprendizagem de conjunto destinado a tarefas de classificação. Os métodos Ensemble são baseados no princípio geral de que, em vez de depender de um único modelo, você pode obter melhores resultados e um modelo mais generalizado criando vários modelos relacionados e combinando-os de alguma forma. Geralmente, os modelos de conjunto fornecem melhor cobertura e precisão do que as árvores de decisão únicas.
Existem muitas maneiras de criar modelos individuais e combiná-los em um conjunto. Esta implementação particular de uma floresta de decisão funciona construindo várias árvores de decisão e, em seguida, votando na classe de saída mais popular. A votação é um dos métodos mais conhecidos para gerar resultados em um modelo de conjunto.
- Muitas árvores de classificação individuais são criadas, usando todo o conjunto de dados, mas pontos de partida diferentes (geralmente randomizados). Isso difere da abordagem de floresta aleatória, na qual as árvores de decisão individuais podem usar apenas uma parte aleatória dos dados ou características.
- Cada árvore na árvore da floresta de decisão produz um histograma de frequência não normalizado de rótulos.
- O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo.
- As árvores que tiverem alta confiança de previsão terão um peso maior na decisão final do conjunto.
As árvores de decisão em geral têm muitas vantagens para as tarefas de classificação:
- Eles podem capturar limites de decisão não lineares.
- Você pode treinar e prever muitos dados, pois eles são eficientes em computação e uso de memória.
- A seleção de funcionalidades está integrada nos processos de formação e classificação.
- As árvores podem acomodar dados barulhentos e muitos recursos.
- São modelos não paramétricos, o que significa que podem lidar com dados com distribuições variadas.
No entanto, árvores de decisão simples podem se sobreajustar aos dados e são menos generalizáveis do que conjuntos de árvores.
Para obter mais informações, consulte Florestas de decisão.
Como configurar
Adicione o componente Floresta de Decisão de Duas Classes ao seu pipeline no Aprendizado de Máquina do Azure e abra o painel Propriedades do componente.
Você pode encontrar o componente em Machine Learning. Expanda Inicializar e, em seguida , Classificação.
Para o método de nova amostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre Ensacamento ou Replicar.
Ensacamento: O ensacamento também é chamado de agregação de bootstrap. Neste método, cada árvore é cultivada em uma nova amostra, criada por amostragem aleatória do conjunto de dados original com substituição até que você tenha um conjunto de dados do tamanho do original.
Os resultados dos modelos são combinados por votação, que é uma forma de agregação. Cada árvore em uma floresta de decisão de classificação produz um histograma de frequência não normalizada de rótulos. A agregação é somar esses histogramas e normalizar para obter as "probabilidades" para cada rótulo. Desta forma, as árvores que tiverem alta confiança de previsão terão um peso maior na decisão final do conjunto.
Para obter mais informações, consulte a entrada da Wikipédia para agregação de bootstrap.
Replicar: na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatória e as árvores serão diversas.
Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.
Parâmetro único: Se você souber como deseja configurar o modelo, poderá fornecer um conjunto específico de valores como argumentos.
Intervalo de parâmetros: Se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais usando o componente Tune Model Hyperparameters . Você fornece algum intervalo de valores e o treinador itera em várias combinações das configurações para determinar a combinação de valores que produz o melhor resultado.
Em Número de árvores de decisão, digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento aumenta.
Nota
Se você definir o valor como 1. No entanto, apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma outra iteração é executada.
Em Profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de algum sobreajuste e aumento do tempo de treino.
Para Número mínimo de amostras por nó foliar, indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.
Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendam às mesmas condições.
Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo para valores desconhecidos nos conjuntos de treinamento ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).
Se você desmarcar essa opção, o modelo poderá aceitar apenas os valores contidos nos dados de treinamento.
Anexe um conjunto de dados rotulado e treine o modelo:
Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .
Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Nota
Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.
Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.
Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Resultados
Após a conclusão da formação:
Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do componente Modelo de trem . Selecione o ícone Registrar conjunto de dados para salvar o modelo como um componente reutilizável.
Para usar o modelo para pontuação, adicione o componente Modelo de pontuação a um pipeline.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.