Procurando um modelo de árvores de decisão
Quando você abre um modelo de classificação usando Procurar, o modelo é exibido em um visualizador de árvore de decisão interativo, semelhante ao visualizador de Árvores de Decisão da Microsoft no Analysis Services. O visualizador exibe os resultados da classificação como um gráfico que foi criado para realçar os critérios que diferenciam um grupo de dados do outro. Você também pode analisar subconjuntos individuais da árvore e recuperar os dados subjacentes.
Explorar o modelo
Os modelos baseados no algoritmo Árvores de Decisão têm várias informações interessantes para explorar. A janela Procurar inclui as seguintes guias e painéis para ajudá-lo a aprender os padrões e prever resultados usando o grafo:
Para experimentar um modelo de árvores de decisão, você poderá usar os dados de exemplo na guia Dados de Treinamento (ou os Dados de Origem) da pasta de trabalho de dados de exemplo e criar um modelo de árvore de decisão usando Bike Buyer como o atributo previsível.
Árvore de Decisão
Essa exibição pretende ajudá-lo a compreender e explorar os fatores que levam a um resultado.
O gráfico da árvore de decisão pode ser lido da esquerda para a direita da seguinte maneira:
Os retângulos, que são chamados de nós, contêm subconjuntos dos dados. O rótulo no nó informa as características de definição desse subconjunto.
O nó mais à esquerda, rotulado Como Todos, representa o conjunto de dados completo. Todos os nós subsequentes representam subconjuntos dos dados.
Uma árvore de decisão contém muitas divisões ou locais em que os dados divergem em vários conjuntos com base em atributos.
Por exemplo, a primeira divisão no modelo de exemplo divide o conjunto de dados em três grupos por idade.
A divisão imediatamente após o nó Todos é mais importante porque mostra a condição primária que divide esse conjunto de dados.
Divisões adicionais ocorrem à direita. Portanto, ao analisar segmentos diferentes da árvore, você poderá saber quais atributos tinham mais influência sobre o comportamento de compra.
Usando essas informações, você poderá concentrar uma campanha de marketing nos clientes que podem apenas precisar de incentivo para fazer uma compra.
Explorar a árvore de decisão
Clique no nó Todos e examine a Legenda de Mineração.
Ela exibe a contagem exata dos casos no conjunto de dados de treinamento, assim como uma análise dos resultados.
Você poderá exibir as mesmas informações em uma dica de ferramenta se para o mouse sobre um nó.
Clique nos sinais de adição e subtração ao lado de cada nó para expandir ou recolher a árvore.
Você também pode usar o controle deslizante Mostrar Nível para expandir ou reduzir a árvore.
Observa que alguns nós são mais escuros do que outros?
Por padrão, Population é usado como a variável de sombreamento, o que significa que a intensidade da cor mostra quais nós têm mais suporte.
Consequentemente, o nó mais à esquerda é o mais escuro, porque contém o conjunto de dados inteiro.
Altere o valor de Background de Todos os Casos para Sim.
Agora a intensidade da cor informa quantos clientes em cada nó compraram uma bicicleta, que é o comportamento no qual você está interessado.
Observe as barras coloridas em cada nó. Este é um histograma que mostra a distribuição de resultados nesse subconjunto de dados. Por exemplo, na árvore de decisão do Comprador de Bicicletas de exemplo, a barra colorida mostra a proporção de clientes que compraram bicicletas (valores Sim) versus aqueles que não compraram (nenhum valor). Para obter os valores exatos, você pode clicar no nó e exibir a Legenda de Mineração.
Ao seguir o gráfico, você poderá ver como cada subconjunto de dados é decomposto em grupos menores, e quais os atributos são os mais úteis para prever um resultado.
Apenas examinar a intensidade do sombreamento, você poderá se concentrar em alguns grupos de interesse, e obter dados mais detalhados sobre eles para comparação. Por exemplo, esses grupos têm uma probabilidade consideravelmente mais alta de comprar bicicletas:
Idade >= 32 e < 53 e Renda >Anual = 26000 e Filhos = 0
Total de casos: 1150
Probabilidade do comprador de bicicleta: 18%
Idade >= 32 e < 53 e Renda >Anual = 26000 e Filhos não = 0 e Estado Civil = 'Solteiro'
Total de casos: 402
Probabilidade do comprador de bicicletas: 16%
Altere o valor de Plano de Fundo de Sim para Não e veja como o grafo é alterado.
Dicas
Se os dados puderem ser divididos em várias séries, um modelo diferente será criado para cada conjunto de dados que você quiser modelar.
No modelo de dados de exemplo, há apenas um resultado previsível - Bike Buyer - mas suponha que você tenha informações sobre se o cliente comprou um plano de serviço e queria prever isso também. Nesse caso, você teria esses dados em uma coluna separada e incluiria dois atributos previsíveis no modelo.
Clique na opção Histograma , no canto superior esquerdo do painel Árvore de Decisão, para alterar o número máximo de estados que podem aparecer nos histogramas na árvore. Isso será útil se o atributo previsível tiver muitos estados. Os estados aparecem em um histograma na ordem de popularidade da esquerda para a direita.
Você também pode usar as opções na guia Árvore de Decisão para afetar como a árvore é exibida, ampliando ou reduzindo o dimensionamento do grafo para se ajustar à janela.
Use a opção Expansão Padrão para definir o número padrão de níveis exibidos em todas as árvores no modelo.
Selecione Mostrar nome longo para exibir o nome completo do atributo, incluindo a fonte de dados. Os nomes curtos e longos são iguais, a menos que seus casos sejam obtidos de uma fonte de dados diferente dos atributos para cada caso.
Rede de Dependências
A exibição Rede de Dependência exibe as conexões entre os atributos de entrada e os atributos previsíveis no modelo.
Clique e arraste o controle deslizante à esquerda do visualizador
Na posição superior, todas as conexões são mostradas. Quando você arrasta o controle deslizante para baixo, apenas os links mais importantes são mostrados no visualizador.
Agora clique no nó Comprador de bicicleta.
Quando você selecionar um nó, o visualizador destacará as dependências específicas ao nó. Nesse caso, o visualizador destacará cada nó que ajuda a prever o resultado.
Se o visualizador contiver muitos nós, você poderá pesquisar nós específicos usando o botão Localizar Nó . Clicar em Localizar Nó faz com que a caixa de diálogo Localizar Nó seja aberta, na qual você pode usar um filtro para pesquisar e selecionar nós específicos.
A legenda na parte inferior do visualizador vincula os nós de cores ao tipo de dependência no gráfico. Por exemplo, quando você seleciona um nó previsível, ele fica sombreado na cor turquesa e os nós que preveem o nó selecionado são sombreados em laranja.
Detalhar os dados subjacentes
Vários tipos de modelos dão suporte à capacidade de detalhar do modelo para os dados de caso subjacentes. Isso pode ser muito útil se você quiser contatar os clientes em um segmento específico ou retirar os dados para executar uma análise mais detalhada.
Obter dados de caso
Clique com o botão direito do mouse no nó na árvore que contém os dados desejados e selecione uma destas opções:
Detalhar o modelo. Essa opção obtém os casos que pertencem ao nó selecionado e salva-os em uma tabela no Excel. Você obtém de volta apenas as colunas de dados que foram realmente usadas para criar o modelo.
Detalhar colunas de estrutura. Essa opção obtém os casos que pertencem ao nó selecionado e salva-os em uma tabela no Excel. Você obtém todas as informações que estavam disponíveis nos dados subjacentes quando os criou, mesmo de uma coluna não foi usada no modelo. Por exemplo, você pode ter excluído o endereço e o código postal do cliente porque esses campos não são úteis na análise, mas deixou-os na estrutura.
Retorne para o Excel para exibir seus dados. O visualizador Procurar executa uma consulta, salva os dados em uma tabela em uma nova planilha e rotula os resultados.
Consulte Também
Procurando modelos no Excel (Suplementos de Mineração de Dados do SQL Server)