Partilhar via


Explorando o modelo de clustering (Tutorial de mineração de dados básico)

O algoritmo Clustering da Microsoft agrupa casos em clusters que contêm características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões.

O Visualizador de Cluster da Microsoft fornece as seguintes guias para uso na exploração de modelos de mineração de clustering:

Guia Diagrama de Cluster

A guia Diagrama de Cluster exibe todos os clusters existentes em um modelo de mineração. As linhas entre os clusters representam "proximidade" e estão sombreadas com base no grau de semelhança que os clusters têm. A cor real de cada cluster representa a frequência da variável e o estado no cluster.

Para explorar o modelo na guia Diagrama de Cluster

  1. Use a lista Modelo de Mineração na parte superior da guia Visualizador do Modelo de Mineração para alternar para o TM_Clustering modelo.

  2. Na lista Visualizador , selecione Visualizador de Cluster da Microsoft.

  3. Na caixa Variável de Sombreamento , selecione Comprador de Bicicleta.

    A variável padrão é População, mas você pode alterá-la para qualquer atributo no modelo, para descobrir quais clusters contêm membros que têm os atributos desejados.

  4. Selecione 1 na caixa Estado para explorar os casos em que uma bicicleta foi comprada.

    A legenda Densidade descreve a densidade do par de estado do atributo selecionado na Variável de Sombreamento e no Estado. Neste exemplo, ele nos informa que o cluster com o sombreamento mais escuro tem a maior porcentagem de compradores de bicicletas.

  5. Coloque o seu mouse sobre o cluster com o sombreamento mais escuro.

    Uma dica de ferramenta exibe a porcentagem de casos que têm o atributo Bike Buyer = 1.

  6. Selecione o cluster que tem a densidade mais alta, clique com o botão direito do mouse no cluster, selecione Renomear Cluster e digite Bike Buyers High para identificação posterior. Clique em OK.

  7. Localize o cluster com o sombreamento mais claro (e a menor densidade). Clique com o botão direito do mouse no cluster, selecione Renomear Cluster e digite Bike Buyers Low. Clique em OK.

  8. Clique no cluster Bike Buyers High e arraste-o para uma área do painel que lhe dará uma visão clara de suas conexões com os outros clusters.

    Quando você seleciona um cluster, as linhas que conectam esse cluster a outros são realçadas para que você possa facilmente ver todas as relações desse cluster. Quando o cluster não estiver selecionado, você poderá dizer pela escuridão das linhas o grau de importância das relações entre todos os clusters do diagrama. Um sombreamento claro ou a ausência dele indica que os clusters não são muito parecidos.

  9. Use o controle deslizante à esquerda da rede para filtrar os links menos importantes e encontrar os clusters com relações mais próximas. O departamento de marketing do Adventure Works Cycles pode querer combinar clusters semelhantes ao determinar o melhor método para fornecer a correspondência direcionada.

Guia Perfis de Cluster

A guia Perfis de Cluster fornece uma exibição geral do TM_Clustering modelo. A guia Perfis de Cluster contém uma coluna para cada cluster no modelo. A primeira coluna listas os atributos associados a pelo menos um cluster. O resto do visualizador contém a distribuição dos estados de um atributo para cada cluster. A distribuição de uma variável discreta é mostrada como uma barra colorida com o número máximo de barras exibidas na lista Barras de Histograma . São exibidos atributos contínuos com um gráfico de diamante que representa o desvio médio e padrão em cada cluster.

Para explorar o modelo na guia Perfis de Cluster

  1. Defina as barras de Histograma como 5.

    Em nosso modelo, 5 é o número máximo de estados para qualquer variável.

  2. Se a Legenda de Mineração bloquear a exibição dos perfis de Atributo, mova-a para fora do caminho.

  3. Selecione a coluna Bike Buyers High e arraste-a para a direita da coluna População .

  4. Selecione a coluna Compradores de Bicicletas Baixa e arraste-a para a direita da coluna Bike Buyers High .

  5. Clique na coluna Bike Buyers High .

    A coluna Variáveis é classificada em ordem de importância para esse cluster. Navegue pela coluna e examine as características do cluster Altos Compradores de Bicicleta. Por exemplo, é mais provável que eles tenham um caminho curto para o trabalho.

  6. Clique duas vezes na célula Idade na coluna Bike Buyers High .

    A Legenda de Mineração exibe uma exibição mais detalhada e você pode ver a faixa etária desses clientes, bem como a idade média.

  7. Clique com o botão direito do mouse na coluna Compradores de Bicicletas Baixa e selecione Ocultar Coluna.

Guia Características do Cluster

Com a guia Características do Cluster , você pode examinar com mais detalhes as características que compõem um cluster. Em vez de comparar as características de todos os clusters (como na guia Perfis de Cluster), você pode explorar um cluster por vez. Por exemplo, se você selecionar Bike Buyers High na lista Cluster , poderá ver as características dos clientes neste cluster. Embora a exibição seja diferente do visualizador Perfis de Cluster, as informações são as mesmas.

Observação

A menos que você defina um valor inicial para holdoutseed, os resultados variam cada vez que você processar o modelo. Para obter mais informações, consulte Elemento HoldoutSeed

Guia Distinção de Cluster

Com a guia Discriminação de Cluster , você pode explorar as características que distinguem um cluster de outro. Depois de selecionar dois clusters, um na lista Cluster 1 e outro da lista Cluster 2 , o visualizador calcula as diferenças entre os clusters e exibe uma lista dos atributos que mais distinguem os clusters.

Para explorar o modelo na guia Distinção de Cluster

  1. Na caixa Cluster 1 , selecione Bike Buyers High.

  2. Na caixa Cluster 2 , selecione Compradores de Bicicleta Baixos.

  3. Clique em Variáveis para classificar em ordem alfabética.

    Algumas das diferenças mais substanciais entre os clientes nos clusters Compradores de Bicicletas Low e Bike Buyers High incluem idade, propriedade do carro, número de filhos e região.

Consulte os tópicos a seguir para explorar os outros modelos de mineração.

Próxima tarefa da lição

Explorando o modelo Naive Bayes (Tutorial de mineração de dados básico)

Tarefa anterior da lição

Explorando o modelo de árvore de decisão (Tutorial de mineração de dados básico)

Consulte Também

Procurar um modelo usando o Visualizador de Cluster da Microsoft
Guia Distinção de Cluster (Visualizador do Modelo de Mineração)
Guia Perfis de Cluster (Visualizador do Modelo de Mineração)
Guia Características do Cluster (Visualizador do Modelo de Mineração)
Guia Diagrama de Cluster (Visualizador do Modelo de Mineração)