Compartilhar via


Explorando o modelo de clustering de sequências (Tutorial de mineração de dados intermediário)

Agora que você criou o modelo Clustering de Sequência com Região, você pode explorá-lo usando o Visualizador de Clustering de Sequência da Microsoft na guia Visualizador de Modelo de Mineração do Designer de Mineração de Dados. O Visualizador de Cluster de Sequência da Microsoft contém cinco guias: Diagrama de Cluster, Perfis de Cluster, Características do Cluster, ClusterDiscrimination e Transições de Estado. Para obter mais informações sobre como usar esse visualizador, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.

Guia Diagrama de Cluster

A guia Diagrama de Cluster exibe graficamente os clusters que o algoritmo descobriu no banco de dados. O layout do diagrama representa as relações dos clusters, com clusters semelhantes agrupados juntos. Por padrão, a sombra de cada nó nó representa a densidade de todos os casos no cluster: quanto mais escuro o sombreamento do nó, mais casos ele conterá. Você pode alterar o significado do sombreamento dos nós para que ele represente suporte, em cada cluster, a um atributo e a um estado.

Você também pode renomear os clusters para facilitar a identificação e o trabalho com os clusters de destino. Para este tutorial, você renomeará o cluster com a maior porcentagem de clientes da região do Pacífico e o cluster com mais casos.

Observação

Os casos atribuídos a clusters específicos podem mudar quando você reprocessar o modelo, dependendo dos dados e dos parâmetros do modelo. Além disso, se você renomear clusters, os nomes serão perdidos no reprocessamento do modelo de mineração.

Para alterar o atributo usado para realçar clusters

  1. Na lista Variável de Sombreamento , selecione Modelo.

  2. Selecione Limite de Ciclismo na lista Estado .

    O diagrama é atualizado para mostrar a concentração do produto selecionado em cada um dos clusters. O cluster no diagrama com o sombreamento mais escuro contém a densidade mais alta de capacetes para ciclismo. Você pode alterar a variável de sombreamento para usar qualquer estado de qualquer coluna de entrada.

  3. Na lista Variável de Sombreamento , selecione População.

    Quando você altera a variável de sombreamento para população, o diagrama é atualizado para comparar os clusters por tamanho. O cluster no diagrama com o sombreamento mais escuro contém mais casos do que os outros clusters.

Para renomear nós no modelo

  1. Altere a Variável de Sombreamento para Regione defina Estado como Pacífico.

  2. Realce o nó mais escuro no gráfico.

  3. Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster.

  4. Digite o nomeCluster do Pacífico.

  5. Altere o valor da Variável de Sombreamento para População.

  6. No gráfico atualizado, localize o cluster mais escuro, que deverá ser o maior. Se você não conseguir saber, pelo sombreamento, que cluster é o maior, coloque o mouse sobre cada cluster e exiba a Dica de Ferramenta e escolha o cluster que contém mais casos.

  7. Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster. Digite o novo nome, Largest Cluster.

Você pode detalhar o nó que representa o cluster para exibir detalhes dos casos de cada cluster. Isso pode ser útil caso você queira executar uma ação sobre os resultados da sua análise, como o envio de um email ao cliente. Você também pode navegar por outros atributos dos casos incluídos na estrutura mas que não foram usados no modelo, como Região e IncomeGroup. Para obter mais informações sobre como analisar desde modelos de mineração até os casos subjacentes, consulte Consultas de detalhamento (mineração de dados).

Para detalhar o diagrama Cluster

  1. Clique com o botão Pacific Clusterdireito do mouse em , selecione Detalhar e, em seguida, selecione Modelo e Colunas de estrutura.

    A caixa de diálogo Detalhar é aberta. As colunas que não são usadas no modelo, mas que estão disponíveis para consulta, são prefixadas com Estrutura.

    Você pode ver que esse cluster contém como maioria clientes da região do Pacífico, com somente alguns poucos clientes de outras regiões.

  2. Clique no sinal de mais na coluna aninhada v Assoc Seq Line Items para exibir a sequência de itens em uma determinada ordem de clientes.

  3. Feche a caixa de diálogo Detalhar .

    Observação

    O botão Reproduzir permite que você exiba os dados; no entanto, a requerying não altera os dados exibidos, a menos que o modelo tenha sido atualizado dinamicamente em segundo plano por algum outro processo.

Voltar ao Início

Guia Perfis de Cluster

A guia Perfis de Cluster exibe as sequências que estão em cada cluster. Os clusters são listados em colunas individuais à direita da coluna Estados .

No visualizador, a linha Modelo descreve a distribuição geral de itens em um cluster e a linha Model.samples contém sequências dos itens. Cada linha das sequências de cores em cada célula da linha Model.samples representa o comportamento de um usuário selecionado aleatoriamente no cluster.

Cada cor em um histograma de sequência individual representa um modelo de produto. A Legenda de Mineração mostra as sequências de produtos usando a codificação de cores e os nomes de modelos do produto. Se você adicionou outras colunas ao modelo de clustering, como Região ou IncomeGroup, o visualizador conterá uma linha adicional para cada coluna, mostrando a distribuição desses valores em cada cluster.

Para exibir as sequências mais comuns em um cluster

  1. Clique com o botão direito do mouse na linha Modelo na coluna do cluster Largest Clustere selecione Mostrar Legenda.

    A coluna Cor contém uma barra sombreada que indica a frequência dos itens encontrados em sequências. Cada item é representado por uma cor diferente. A coluna Significado lista os nomes do modelo de produto para cada cor. A coluna Distribuição informa a porcentagem de casos que continham esse item em uma sequência.

  2. Feche a Legenda de Mineração.

  3. Clique com o botão direito do mouse na linha Model.samples na coluna com o título População e selecione Mostrar Legenda.

  4. Examinar a lista de sequências no modelo geral.

    A Legenda de Mineração lista as sequências mais comuns primeiro, para que você possa ver que o Tubo de Pneu para Mountain Bike é o primeiro item de muitas sequências. Isso significa que um cliente muito provavelmente coloca o Tubo de Pneu pra Mountain Bike primeiro na cesta de compras.

Para detalhar casos a partir do visualizador de clusters

  1. Role para baixo no painel Atributo até encontrar a linha do Region atributo.

    A linha contém um histograma para cada cluster no modelo, além de um histograma adicional para Population, o que significa todo o conjunto de casos usados no modelo. Um histograma é uma barra com cores diferentes, onde cada cor representa um atributo e o tamanho da seção colorida desse atributo representa a sua porcentagem de casos.

  2. Compare os histogramas para os clusters que você renomeou Pacific Cluster e Largest Cluster. Cada cluster aparece em uma coluna diferente.

    Ambos têm cores sólidas, mas as cores são diferentes.

  3. Region Na linha, pause o mouse sobre o histograma colorido para Largest Cluster.

    A Dica de Ferramenta exibirá valores que mostram as porcentagens reais de casos de cada região.

  4. Clique com o botão direito do mouse no histograma colorido na Region linha para Pacific Cluster, selecione Detalhar e, em seguida, selecione Somente Colunas de Modelo.

  5. Mova a barra de rolagem para revisar todos os clientes desse cluster.

    Novamente, a partir do detalhamento, é possível ver que o cluster contém, em grande parte, pedidos da região do Pacífico, mas também alguns das regiões da América do Norte e da Europa.

  6. Feche a caixa de diálogo Detalhar .

Voltar ao Início

Guia Características do Cluster

A guia Características do Cluster resume as transições entre estados em um cluster exibindo barras que representam visualmente a importância do valor do atributo para o cluster selecionado. A coluna Variáveis informa qual modelo considerou importante para o cluster ou população selecionado: um valor específico ou a relação entre valores, conhecido como transição. A coluna Valores fornece mais detalhes sobre o valor ou a transição e a coluna Probabilidade representa visualmente o peso desse atributo ou transição.

Para exibir os atributos importantes para um cluster

  1. Na lista suspensa Cluster , selecione Pacific Cluster.

    A lista é atualizada para mostrar as características do cluster que você renomeou Pacific Cluster. Nesse cluster, a característica mais importante é Region.

  2. Pause o mouse sobre a barra sombreada na linha para Region.

    A probabilidade do valor ser Pacífico é muito alta. Para obter mais informações sobre como interpretar esses valores, consulte Referência técnica do algoritmo de clustering de sequência da Microsoft.

  3. Examine a lista de características do cluster até localizar a primeira linha de transição.

  4. Uma linha de transição contém o texto Transição na coluna Variáveis e alguma combinação de valores de atributo sequencial na coluna Valor . A sequência também pode conter pontos iniciais e valores ausentes.

    Por exemplo, suponha que a transição tenha o valor [Start] –> Tubo de pneu de estrada. Isso significa que clientes deste cluster colocam com frequência o Tubo de Pneu de Estrada em sua cesta de compras. Isso poderia significar que o produto é um item popular e procurado primeiro por clientes, ou pode simplesmente indicar que o produto é fácil de localizar no site de compras.

  5. Role a lista até encontrar a primeira transição que não tenha [Iniciar] ou ausente nela.

    Por exemplo, suponha que você encontre a transição, Pneu de Touring, Tubo de Pneu de Touring. Isso significa que clientes deste cluster com frequência compraram esses itens juntos, exatamente nessa ordem.

  6. Coloque o mouse sobre a barra sombreada para essa transição.

    A probabilidade dessa transição é exibida como uma porcentagem.

  7. Na lista suspensa Cluster , selecione População (Todos).

    A lista de atributos é atualizada para mostrar as características de todas as ordens usadas na criação do modelo. Nesse modelo de mineração, a característica mais importante para distinguir entre clusters é Region, com um valor de América do Norte.

Depois de revisar essas tarefas, você percebe duas coisas. A primeira é que precisa de muitos dados para obter um número significativo de combinações. Por exemplo, as sequências com as maiores probabilidades provavelmente incluirão um estado [Iniciar] ou Ausente .

A segunda é que há um forte efeito clustering nos atributos para Region, o que torna mais difícil ver os grupos de sequências. Dessa forma, você decide criar outro modelo que use somente sequências e que não inclua as colunas para região ou renda.

Voltar ao Início

Guia Distinção de Cluster

A guia Discriminação de Cluster ajuda você a comparar dois clusters, para determinar quais atributos distinguem um cluster específico de outro cluster. A guia contém quatro colunas: Variáveis, Valores, Cluster 1 e Cluster 2. Você pode escolher qualquer cluster a ser usado como Cluster 1 e Cluster 2.

A coluna Variáveis informa o nome do atributo, que pode ser um nome de coluna ou uma combinação de nome de coluna e a transição de palavra. A coluna Valores mostra o valor exato do atributo ou da transição. As barras sombreadas nas colunas para Cluster 1 e Cluster 2 indicam a força do atributo nos clusters que você está comparando. Quanto mais longa for a barra, mais será provável que o cluster inclua casos com esse atributo.

Para comparar dois clusters usando a guia Distinção de Cluster

  1. Na guia Discriminação de Cluster , para Cluster 1, selecione Pacific Cluster.

    Por padrão, a seleção do Cluster 2 muda para Complemento do Cluster do Pacífico.

    O principal atributo que distingue Pacific Cluster de todos os outros casos é a região. A região é um atributo tão forte para o clustering que obscurece outros atributos. Para impedir esse efeito, tente comparar vários clusters menores uns aos outros. Quando você fizer isso, a lista de atributos mudará e poderá incluir mais transições entre modelos.

  2. Localize uma linha de transição e coloque o mouse sobre a barra sombreada.

    Os itens na coluna Valores podem incluir estados e transições. O sombreamento de cada item indica a contagem de distinção. Para saber mais sobre o significado de pontuações diferentes, consulte Conteúdo do modelo de mineração para modelos de clustering de sequência (Analysis Services – Mineração de dados).

Voltar ao Início

Guia Transições de Estado

Na guia Transições de Estado , você pode selecionar um cluster e navegar por suas transições de estado. Se você selecionar População (Todos) na lista suspensa do cluster, o diagrama mostrará a distribuição de estados para todo o modelo de mineração.

Cada nó do gráfico representa um estado, ou um valor possível das sequências que você está tentando analisar. A cor de fundo dos nós representa a frequência do estado. As linhas conectam alguns estados, indicando uma transição entre eles. Você pode mover o controle deslizante para cima ou para baixo para alterar o limite de probabilidade para as transições. Os números são associados a alguns nós, indicando a probabilidade do estado.

Para explorar os relacionamentos na guia Transição de Estado

  1. Na guia Transições de Estado do visualizador do Modelo de Mineração, selecione Pacific Cluster na lista de clusters. Verifique se a opção Mostrar Rótulos de Borda está selecionada.

    O gráfico é atualizado para mostrar as transições mais comuns desse cluster.

  2. Clique em qualquer nó conectado por uma linha a outro nó.

    O gráfico é atualizado e realça os nós relacionados. O valor numérico ao lado da linha indica a probabilidade da transição.

  3. Aumente o controle deslizante até Todos os Links para aumentar o número de transições incluídas no grafo.

  4. Selecione População (Todos) no Cluster.

    Observe que quando você carrega um cluster diferente, o gráfico volta a ter as configurações de exibição padrão e, portanto, o controle deslizante é redefinido para a posição intermediária.

  5. Clique no nó mais escuro do grafo, que deve ser Sport-100.

    Observe que não há linhas conectando esse produto a outros.

  6. Suba o controle deslizante uma etapa para aumentar o número de transições incluídas no gráfico. Não vá até Todos os Links ainda.

    O gráfico será atualizado pela adição de várias outras transições, mas nenhuma que inclua o modelo Sport-100.

  7. Mova o controle deslizante até Todos os Links. Clique no nó Sport-100 caso ele ainda não esteja selecionado.

    O gráfico é atualizado para mostrar muitas transições que incluem o produto Sport-100. A direção da seta na linha de conexão mostra se o item Sport-100 foi selecionado como o primeiro ou o segundo item do par.

  8. Clique no nó de Pneu de Passeio e mova o controle deslizante de volta à posição intermediária.

    No início, há muitas linhas de transição que conectam o Pneu touring a outros produtos, mas quando você aumenta o limite de probabilidade, as transições menos prováveis são eliminadas do grafo, deixando apenas a transição, Touring Tire > Touring Tire Tube. Essa transição significa que se um cliente colocar um Pneu de Passeio na cesta de compras, há uma grande probabilidade de que o cliente colocará em seguida um Tubo de Pneu de Passeio na cesta.

Voltar ao Início

Visualizador de árvore de conteúdo genérica

Esse visualizador pode ser usado em todos os modelos, independentemente do algoritmo ou do tipo de modelo. O Visualizador da Árvore de Conteúdo MicrosoftGeneric está disponível na lista suspensa Visualizador .

Uma árvore de conteúdo é uma representação de qualquer modelo de mineração como uma série de nós, em que cada nó representa conhecimento adquirido sobre alguns dados de treinamento. O nó pode conter um padrão, um conjunto de regras, um cluster ou a definição de um intervalo de datas que compartilham alguns atributos. O conteúdo exato do nó difere dependendo do algoritmo e do tipo do atributo previsível; no entanto, a representação geral do conteúdo é a mesma.

É possível expandir os nós para consultar um maior número de detalhes, assim como copiar o conteúdo de qualquer um deles para a Área de Transferência. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Árvore de Conteúdo Genérico da Microsoft.

Para exibir detalhes de um modelo de clustering de sequências usando o Visualizador de Árvore de Conteúdo Genérica

  1. Na guia Visualizador do Modelo de Mineração , clique na lista Visualizador e selecione Visualizador da Árvore de Conteúdo Genérica da Microsoft.

  2. No painel Legenda do Nó , clique Pacific Cluster (1)em .

    O nome desse nó contém o nome amigável atribuído ao cluster e a ID do nó subjacente. Você pode usar as IDs do nó para detalhar ainda mais o modelo.

  3. Expanda o primeiro nó filho, chamado Nível de sequência para o cluster 1.

    O nó de nível de sequência para um cluster contém detalhes sobre os estados e transições incluídos naquele cluster. Você pode usar esses detalhes, disponíveis na coluna NODE_DISTRIBUTION, para explorar as sequências e os estados de cada cluster ou do modelo como um todo.

  4. Continue a expandir nós e a exibir detalhes no painel visualizador de HTML.

Para obter mais informações sobre o conteúdo do modelo de mineração e como usar os detalhes no visualizador, consulte Conteúdo do modelo de mineração para modelos de clustering de sequência (Analysis Services – Mineração de dados).

Voltar ao Início

Próxima tarefa da lição

Criando um modelo de clustering de sequências relacionado (Tutorial de mineração de dados intermediário)

Consulte Também

Microsoft Sequence Clustering Algorithm
Sequence Clustering Model Query Examples