Partilhar via


Conteúdo do modelo de mineração para modelos de clustering (Analysis Services – Mineração de Dados)

Este tópico descreve o conteúdo do modelo de mineração que é específico para modelos que usam o algoritmo Microsoft Clustering. Para obter uma explicação geral sobre o conteúdo do modelo de mineração para todos os tipos de modelo, consulte Conteúdo do modelo de mineração (Analysis Services – Mineração de dados).

Entendendo a estrutura de um modelo de clustering

Um modelo de clustering tem uma estrutura simples. Cada modelo tem um único nó pai que representa o modelo e seus metadados, e cada nó pai possui uma lista simples de clusters (NODE_TYPE = 5). Essa organização é mostrada na imagem a seguir.

estrutura de conteúdo do modelo para clustering

Cada nó filho representa um único cluster e contém estatísticas detalhadas sobre os atributos dos casos desse cluster. Isso inclui a contagem do número de casos do cluster e a distribuição de valores que distinguem cada cluster.

ObservaçãoObservação

Não é necessária iteração com os nós para obter a contagem ou a descrição dos clusters; o nó pai do modelo também conta e lista os clusters.

O nó pai contém estatísticas úteis que descrevem a distribuição real de todos os casos em treinamento. Essas estatísticas são encontradas na coluna da tabela aninhada, NODE_DISTRIBUTION. Por exemplo, a tabela a seguir mostra várias linhas da tabela NODE_DISTRIBUTION que descrevem a distribuição dos dados demográficos dos clientes do modelo de clustering TM_Clustering que você cria no Tutorial de mineração de dados básico:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUE_TYPE

Idade

Ausente

0

0

0

1 (Ausente)

Idade

44.9016152716593

12939

1

125.663453102554

3 (Contínuo)

Gender

Ausente

0

0

0

1 (Ausente)

Gênero

F

6350

0.490764355823479

0

4 (Discreto)

Gênero

M

6589

0.509235644176521

0

4 (Discreto)

A partir desses resultados, você pode ver que foram usados 12.939 casos para construir o modelo, que a proporção de homens para mulheres é de cerca de 50-50 e que a idade média é de 44 anos. As estatísticas descritivas variam de acordo com o fato de o atributo que está sendo reportado ser um tipo de dados numérico contínuo, como idade, ou um tipo de valor discreto, como gênero. As medidas estatísticas mean e variance são computadas para os tipos de dados contínuos, enquanto probability e support são computadas para tipos de dados discretos.

ObservaçãoObservação

A variância representa a variação total do cluster. Quando esse valor é pequeno, indica que a maioria dos valores da coluna estão bem próximos da média. Para obter o desvio padrão, calcule a raiz quadrada da variância.

Observe que para cada atributo existe um tipo de valor Missing que indica quantos casos não tinham dados para esse atributo. Dados ausentes podem ser importantes e afetar os cálculos de várias formas, dependendo do tipo de dados. Para obter mais informações, consulte Valores ausentes (Analysis Services - Mineração de dados).

Conteúdo do modelo para um modelo de clustering

Esta seção fornece detalhes e exemplos somente para as colunas de conteúdo do modelo de mineração que são relevantes para os modelos de clustering.

Para obter informações sobre as colunas de uso general no conjunto de linhas de esquema, como MODEL_CATALOG e MODEL_NAME, consulte Conteúdo do modelo de mineração (Analysis Services – Mineração de dados).

  • MODEL_CATALOG
    Nome do banco de dados no qual o modelo é armazenado.

  • MODEL_NAME
    O nome do modelo.

  • ATTRIBUTE_NAME
    Sempre em branco em modelos de clustering porque não há nenhum atributo previsível no nó.

  • NODE_NAME
    Sempre igual a NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Um identificador exclusivo do nó no modelo. Esse valor não pode ser alterado.

  • NODE_TYPE
    Um modelo de clustering gera os seguintes tipos de nó:

    ID e nome do nó

    Descrição

    1 (Modelo)

    Nó raiz do modelo.

    5 (Cluster)

    Contém a contagem de casos do cluster, as características dos casos do cluster e estatísticas que descrevem os valores do cluster.

  • NODE_CAPTION
    Um nome amigável para exibição. Quando você criar um modelo, o valor de NODE_UNIQUE_NAME será usado automaticamente como legenda. No entanto, é possível alterar o valor de NODE_CAPTION para atualizar o nome para exibição do cluster, seja de maneira programática ou usando o visualizador.

    ObservaçãoObservação

    Quando você reprocessar o modelo, todas as alterações de nome serão substituídas pelos valores novos. Não é possível persistir nomes no modelo ou monitorar alterações na associação do cluster entre versões diferentes de um modelo.

  • CHILDREN_CARDINALITY
    Uma estimativa do número de filhos do nó.

    Nó pai   Indica o número de clusters no modelo.

    Nós do cluster Sempre 0.

  • PARENT_UNIQUE_NAME
    Nome exclusivo pai do nó.

    Nó pai Sempre NULL

    Nós do cluster Normalmente, 000.

  • NODE_DESCRIPTION
    Uma descrição do nó.

    Nó paiSempre (Tudo).

    Nós do cluster Uma lista separada por vírgula dos principais atributos que distinguem cada cluster.

  • NODE_RULE
    Não é usado para modelos de clustering.

  • MARGINAL_RULE
    Não é usado para modelos de clustering.

  • NODE_PROBABILITY
    A probabilidade associada a este nó. Nó pai Sempre 1.

    Nós do cluster   A probabilidade representa a probabilidade composta dos atributos, com alguns ajustes de acordo com o algoritmo usado na criação do modelo de clustering.

  • MARGINAL_PROBABILITY
    Probabilidade de que o nó seja alcançado a partir do nó pai. Em um modelo de clustering, a probabilidade marginal é sempre igual à probabilidade de nó.

  • NODE_DISTRIBUTION
    Tabela que contém o histograma de probabilidade do nó.

    Nó pai Consulte a Introdução deste tópico.

    Nós do cluster Representa a distribuição de atributos e valores para casos incluídos no cluster.

  • NODE_SUPPORT
    Número de casos que suportam esse nó. Nó pai   Indica o número de casos em treinamento do modelo inteiro.

    Nós do cluster Indica o tamanho do cluster como o número de casos.

    Observação Se os modelo usar clustering K-Means, cada caso pode pertencer somente a um cluster. No entanto, se o modelo usar clustering EM, cada são pode pertencer a clusters diferentes e ao caso é atribuída uma distância ponderada para cada cluster a que ele pertence. Portanto, para modelos EM, a soma de suporte para um cluster individual é maior que o suporte para o modelo inteiro.

  • MSOLAP_MODEL_COLUMN
    Não é usado para modelos de clustering.

  • MSOLAP_NODE_SCORE
    Exibe uma pontuação associada ao nó.

    Nó paiA pontuação BIC (Bayesian Information Criterion) para o modelo de clustering.

    Nós do cluster Sempre 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Um rótulo usado para exibição. Não é possível alterar essa legenda.

    Nó pai O tipo de modelo: modelo de clustering

    Nós do clusterO nome do cluster. Exemplo: Cluster 1.

Comentários

O Analysis Services oferece vários métodos para a criação de um modelo de clustering. Se você não souber qual método foi usado para criar o modelo com que você está trabalhando, pode recuperar os metadados do modelo programaticamente, usando um cliente ADOMD ou AMO ou consultando o conjunto de linhas do esquema de mineração de dados. Para obter mais informações, consulte Como consultar os parâmetros usados para criar um modelo de mineração.

ObservaçãoObservação

A estrutura e o conteúdo do modelo permanecem inalterados, independentemente do método ou dos parâmetros de clustering usados.