Algoritmo Árvores de Decisão da Microsoft

Artigo
06/13/2017

O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão fornecido pela Microsoft SQL Server Analysis Services para uso na modelagem preditiva de atributos discretos e contínuos.

No caso dos atributos discretos, o algoritmo faz previsões fundadas nas relações entre colunas de entrada em um conjunto de dados. Ele usa os valores, conhecidos como estados, dessas colunas para prever os estados de uma coluna que você define como previsível. Especificamente, o algoritmo identifica as colunas de entrada que são correlacionadas com a coluna previsível. Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas. A árvore de decisão faz previsões com base nesta tendência para obter um resultado específico.

No caso de atributos contínuos, o algoritmo usa a regressão linear para determinar onde uma árvore de decisão se divide.

Se mais de uma coluna for definida como previsível, ou se os dados de entrada tiverem uma tabela aninhada configurada como previsível, o algoritmo criará uma árvore de decisão separada para cada coluna previsível.

Exemplo

O departamento de marketing da empresa Adventure Works Cycles deseja identificar as características de clientes anteriores que podem indicar se esses clientes provavelmente comprarão um produto no futuro. O banco de dados AdventureWorks2012 armazena informações demográficas que descrevem os clientes anteriores. Usando o algoritmo Árvores de Decisão da Microsoft para analisar essas informações, o departamento de marketing pode criar um modelo que prevê se um cliente específico comprará produtos, com base nos estados de colunas conhecidas sobre esse cliente, como dados demográficos ou padrões de compra anteriores.

Como o algoritmo funciona

O algoritmo Árvores de Decisão da Microsoft cria um modelo de mineração de dados criando uma série de divisões na árvore. Essas divisões são representadas como nós. O algoritmo adiciona um nó ao modelo toda vez que uma coluna de entrada é considerada significativamente correlacionada a uma coluna previsível. A forma que o algoritmo determina uma divisão depende do fato de ele estar prevendo uma coluna contínua ou discreta.

O algoritmo Árvores de Decisão da Microsoft usa a seleção de recursos para orientar a seleção dos atributos mais úteis. A seleção de recursos é usada por todos os algoritmos de mineração de dados do Analysis Services para melhorar o desempenho e a qualidade da análise. A seleção de recurso é importante para impedir que atributos sem-importância usem tempo do processador. Se você usar muitas entradas ou atributos previsíveis ao criar um modelo de mineração de dados, o modelo poderá demorar muito tempo para processar ou ainda esgotar a memória. Os métodos usados para determinar se a árvore deve ser dividida incluem métricas padrão do setor para entropia e redes bayesianas*.* Para obter mais informações sobre os métodos usados para selecionar atributos significativos e, em seguida, pontuar e classificar os atributos, consulte Seleção de Recursos (Mineração de Dados).

Um problema comum em modelos de mineração de dados é que o modelo se torna muito sensível a pequenas diferenças nos dados de treinamento, nesse caso, ele disse estar sobrecarregado ou super-treinado. Um modelo sobrecarregado não pode ser generalizado para outros conjuntos de dados. Para evitar o sobreajuste em qualquer conjunto específico de dados, o algoritmo Árvores de Decisão da Microsoft usa técnicas para controlar o crescimento da árvore. Para obter uma explicação mais detalhada de como o algoritmo Árvores de Decisão da Microsoft funciona, consulte Referência técnica do algoritmo árvores de decisão da Microsoft.

Prevendo colunas discretas

A maneira como o algoritmo Árvores de Decisão da Microsoft cria uma árvore para uma coluna previsível discreta pode ser demonstrada usando um histograma. O diagrama a seguir mostra um histograma que esboça uma coluna previsível, Compradores de bicicleta, em comparação com uma coluna de entrada, Idade. O histograma mostra que a idade de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.

Histograma do algoritmo Árvores de Decisão da Microsoft

A correlação mostrada no diagrama faria com que o algoritmo Árvores de Decisão da Microsoft criasse um novo nó no modelo.

Nó de árvore de decisão Nó

À medida que o algoritmo acrescenta novos nós em um modelo, uma estrutura de árvore é formada. O nó superior da árvore indica a divisão da coluna previsível para a média da população de clientes. Como o modelo continua crescendo, o algoritmo considera todas as colunas.

Prevendo colunas contínuas

Quando o algoritmo Árvores de Decisão da Microsoft cria uma árvore com base em uma coluna previsível contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um ponto de não linearidade na fórmula de regressão. Por exemplo, considere o seguinte diagrama:

Várias linhas de regressão mostrando não linearidade

O diagrama contém dados que podem ser modelados usando uma única linha ou usando duas linhas conectadas. Porém, uma única linha não representaria os dados de forma satisfatória. Mas, se você usar duas linhas, o modelo terá um desempenho muito melhor ao aproximar dados. O ponto onde duas linhas se encontram é o ponto de não linearidade e é onde o nó de um modelo de árvore de decisão se dividiria. Por exemplo, o nó que corresponde ao ponto de não linearidade no gráfico anterior poderia ser representado pelo diagrama a seguir. As duas equações representam as equações de regressão para as duas linhas.

Equação que representa um ponto de

Dados necessários para modelos de árvore de decisão

Ao preparar dados para usar em um modelo de árvore de decisão, você deve saber os requisitos do algoritmo específico, incluindo a quantidade de dados necessária e como eles são usados.

Os requisitos para um modelo de árvore de decisão são os seguintes:

Uma única coluna de chave Cada modelo deve conter uma coluna de texto ou numérica que identifique unicamente cada registro. Não são permitidas chaves compostas.
Uma coluna previsível Requer, pelo menos, uma coluna previsível. Você pode incluir vários atributos previsíveis em um modelo, e o atributo previsível pode ser de diferentes tipos, tanto numérico como discreto. Porém, o aumento no número de atributos previsíveis pode aumentar o tempo de processamento.
Colunas de entrada Requer colunas de entrada que podem ser discretas ou contínuas. O aumento no número de atributos de entrada afeta o tempo de processamento.

Para obter informações mais detalhadas sobre os tipos de conteúdo e de dados com suporte pelos modelos de árvore de decisão, consulte a seção Requisitos de Referência técnica do algoritmo de árvore de decisão da Microsoft.

Exibindo um modelo de árvore de decisão

Para explorar o modelo, você pode usar o Visualizador de Árvores da Microsoft. Caso seu modelo gere várias árvores, é possível selecionar uma árvore e o visualizador mostrará uma divisão de como os casos são categorizados para cada atributo previsível. Você também pode exibir a interação das árvores usando o visualizador de rede de dependência. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Árvores da Microsoft.

Se quiser obter mais detalhes sobre qualquer ramificação ou nó da árvore, você também pode explorar o modelo usando o Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, as probabilidades em cada nível da árvore e as fórmulas de regressão dos atributos contínuos. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de dados).

Criando previsões

Depois que o modelo foi processado, os resultados são armazenados como um conjunto de padrões e estatísticas. Esse conjunto pode ser usado para explorar relações e fazer previsões.

Para obter exemplos de consultas a usar com um modelo de árvores de decisão, consulte Exemplos de consulta de modelo de árvores de decisão.

Para obter informações gerais sobre como criar consultas com base em modelos de mineração, consulte Consultas de mineração de dados.

Comentários

Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.
Dá suporte ao detalhamento.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de dados)Algoritmo de árvores de decisão da Microsoft Exemplos de consulta de modelo de referência técnica de árvores de decisão exemplos de conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de dados)

Partilhar via