Explorando o modelo de clustering (Tutorial de mineração de dados básico)
O algoritmo de Clustering da Microsoft agrupa casos em clusters que contêm características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões.
O Visualizador de Cluster da Microsoft fornece as seguintes guias para serem usadas na exploração de modelos de mineração de cluster:
Diagrama de Cluster
Perfis de Cluster
Características do Cluster
Distinção de Cluster
As seções a seguir descrevem como selecionar o visualizador apropriado e explorar os outros modelos de mineração.
Guia Diagrama de Cluster
A guia Diagrama de Cluster exibe todos os clusters existentes em um modelo de mineração. As linhas entre os clusters representam "proximidade" e estão sombreadas com base no grau de semelhança que os clusters têm. A cor real de cada cluster representa a frequência da variável e o estado no cluster.
Para explorar o modelo na guia Diagrama de Cluster
Use a lista Modelo de Mineração na parte superior da guia Visualizador do Modelo de Mineração para alternar para o modelo TM_Clustering.
Na lista Visualizador, selecione Visualizador de Clusters da Microsoft.
Na caixa Variável de Sombreamento, selecione Comprador de Bicicleta.
A variável padrão é População, mas você pode alterar isso para qualquer atributo do modelo para descobrir quais clusters contêm membros que têm os atributos desejados.
Selecione 1 na caixa Estado para explorar os casos em que uma bicicleta foi comprada.
A legenda Densidade descreve a densidade do par de estados do atributo selecionado na Variável de Sombreamento e no Estado. Este exemplo nos mostra que o cluster com o sombreamento mais escuro tem a maior porcentagem de compradores de bicicleta.
Coloque o seu mouse sobre o cluster com o sombreamento mais escuro.
Uma dica de ferramenta exibe a porcentagem de casos que têm o atributo Bike Buyer = 1.
Selecione o cluster com a densidade mais alta, clique com o botão direito do mouse nele, selecione Renomear Cluster e digite Altos Compradores de Bicicleta para identificação posterior. Clique em OK.
Localize o cluster com o sombreamento mais claro (e a menor densidade). Clique com o botão direito do mouse no cluster, selecione Renomear Cluster e digite Baixos Compradores de Bicicleta. Clique em OK.
Clique no cluster Altos Compradores de Bicicleta e arraste-o para uma área do painel que oferecerá a você uma visão clara de suas conexões com os outros clusters.
Quando você seleciona um cluster, as linhas que conectam esse cluster a outros são realçadas para que você possa facilmente ver todas as relações desse cluster. Quando o cluster não estiver selecionado, você poderá dizer pela escuridão das linhas o grau de importância das relações entre todos os clusters do diagrama. Um sombreamento claro ou a ausência dele indica que os clusters não são muito parecidos.
Use o controle deslizante à esquerda da rede para filtrar os links menos importantes e encontrar os clusters com relações mais próximas. O departamento de marketing da Ciclos da Adventure Works pode querer combinar clusters similares na determinação do melhor método de entrega da mala direta.
Voltar ao início
Guia Perfis de Cluster
A guia Perfis de Cluster fornece uma visão geral do modelo TM_Clustering. A guia Perfis de Cluster contém uma coluna para cada cluster no modelo. A primeira coluna listas os atributos associados a pelo menos um cluster. O resto do visualizador contém a distribuição dos estados de um atributo para cada cluster. A distribuição de uma variável discreta é mostrada como uma barra colorida com o número máximo de barras exibidas na lista Barras de histograma. São exibidos atributos contínuos com um gráfico de diamante que representa o desvio médio e padrão em cada cluster.
Para explorar o modelo na guia Perfis de Cluster
Defina as barras Histograma como 5.
Em nosso modelo, 5 é o número máximo de estados para qualquer variável.
Se a Legenda de Mineração bloquear a exibição dos Perfis de atributo, tire-a do caminho.
Selecione a coluna Altos Compradores de Bicicleta e arraste-a para a direita da coluna População.
Selecione a coluna Baixos Compradores de Bicicleta e arraste-a para a direita da coluna Altos Compradores de Bicicleta.
Clique na coluna Altos Compradores de Bicicleta.
A coluna Variáveis é classificada em ordem de importância para esse cluster. Navegue pela coluna e examine as características do cluster Altos Compradores de Bicicleta. Por exemplo, é mais provável que eles tenham um caminho curto para o trabalho.
Clique duas vezes na célula Idade da coluna Altos Compradores de Bicicleta.
A Legenda de Mineração tem uma visualização mais detalhada e você pode ver o intervalo de idade desses clientes, além da idade média.
Clique com o botão direito do mouse na coluna Baixos Compradores de Bicicleta e selecione Ocultar Coluna.
Voltar ao início
Guia Características do Cluster
Com a guia Características do Cluster, você pode examinar detalhadamente as características que compõem um cluster. Em vez de comparar as características de todos os clusters (como na guia Perfis de Cluster), você pode explorar um cluster por vez. Por exemplo, se você selecionar Altos Compradores de Bicicleta na lista Cluster, poderá ver as características dos clientes deste cluster. Embora a exibição seja diferente do visualizador Perfis de Cluster, as informações são as mesmas.
Observação |
---|
A menos que você defina um valor inicial para holdoutseed, os resultados irão variar sempre que o modelo for processado. Para obter mais informações, consulte Elemento HoldoutSeed |
Voltar ao início
Guia Distinção de Cluster
Com a guia Distinção de Cluster, você pode explorar as características que distinguem um cluster de outro. Depois de selecionar dois clusters, um na lista Cluster 1 e um na lista Cluster 2, o visualizador calculará as diferenças entre os clusters e exibirá uma lista de atributos que mais distinguem os clusters.
Para explorar o modelo na guia Distinção de Cluster
Na caixa Cluster 1, selecione Altos Compradores de Bicicleta.
Na caixa Cluster 2, selecione Baixos Compradores de Bicicleta.
Clique em Variáveis para classificar alfabeticamente.
Algumas das diferenças mais significativas entre os clientes nos clusters Baixos Compradores de Bicicleta e Altos Compradores de Bicicleta incluem idade, propriedade de carros, número de filhos e região.
Tarefa anterior da lição
Explorando o modelo de árvore de decisão (Tutorial de mineração de dados básico)
Consulte também