Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos)
En este tema se describe el contenido del modelo de minería de datos específico de los modelos que utilizan el algoritmo de agrupación en clústeres de Microsoft. Para obtener una explicación general del contenido del modelo de minería de datos para todos los tipos de modelos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Descripción de la estructura de un modelo de agrupación en clústeres
Un modelo de agrupación en clústeres tiene una estructura simple. Cada modelo tiene un único nodo primario que representa el modelo y sus metadatos, y cada nodo primario tiene una lista plana de clústeres (NODE_TYPE = 5). Esta organización se muestra en la imagen siguiente.
Cada nodo secundario representa un único clúster y contiene estadísticas detalladas sobre los atributos de los casos de ese clúster. Esto incluye un recuento del número de casos del clúster y la distribución de los valores que diferencian ese clúster de los demás.
[!NOTA]
No es necesario realizar iteraciones en los nodos para obtener un recuento o una descripción de los clústeres; el nodo primario del modelo también cuenta y enumera los clústeres.
El nodo primario contiene estadísticas útiles que describen la distribución real de todos los casos de entrenamiento. Estas estadísticas se encuentran en la columna de la tabla anidada NODE_DISTRIBUTION. Por ejemplo, la tabla siguiente muestra varias filas de la tabla NODE_DISTRIBUTION que describen la distribución de los datos demográficos de los clientes para el modelo de agrupación en clústeres, TM_Clustering, que se crea en Tutorial básico de minería de datos:
ATTRIBUTE_NAME |
ATTRIBUTE_VALUE |
SUPPORT |
PROBABILITY |
VARIANCE |
VALUE_TYPE |
---|---|---|---|---|---|
Age |
Missing |
0 |
0 |
0 |
1 (Ausente) |
Age |
44,9016152716593 |
12939 |
1 |
125,663453102554 |
3 (Continuo) |
Gender |
Missing |
0 |
0 |
0 |
1 (Ausente) |
Gender |
F |
6350 |
0,490764355823479 |
0 |
4 (Discreto) |
Gender |
M |
6589 |
0,509235644176521 |
0 |
4 (Discreto) |
En estos resultados se puede observar que se utilizaron 12.939 casos para generar el modelo, que la proporción entre hombres y mujeres fue de 50-50, aproximadamente, y que la edad media fue de 44 años. Las estadísticas descriptivas varían dependiendo de si el atributo sobre el que se está informando es un tipo de datos numérico continuo, como la edad, o un tipo de valor discreto, como el género. Las medidas estadísticas media y varianza se calculan para los tipos de datos continuos, mientras que la probabilidad y el soporte se calculan para los tipos de datos discretos.
[!NOTA]
La varianza representa la varianza total para el clúster. Cuando el valor para la varianza es pequeño, indica que la mayoría de los valores de la columna se hallaban bastante cerca de la media. Para obtener la desviación estándar, calcule la raíz cuadrada de la varianza.
Observe que para cada atributo hay un tipo de valor Missing que indica cuántos casos carecían de datos para ese atributo. Los datos ausentes pueden ser relevantes y afectar a los cálculos de varias maneras, dependiendo del tipo de datos. Para obtener más información, vea Valores ausentes (Analysis Services - Minería de datos).
Contenido del modelo para un modelo de agrupación en clústeres
Esta sección sólo proporciona detalles y ejemplos para las columnas del contenido del modelo de minería de datos que son relevantes para los modelos de agrupación en clústeres.
Para obtener información sobre las columnas de uso general en el conjunto de filas de esquema, como MODEL_CATALOG y MODEL_NAME, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
MODEL_CATALOG
Nombre de la base de datos en la que se almacena el modelo.MODEL_NAME
Nombre del modelo.ATTRIBUTE_NAME
Siempre en blanco en los modelos de agrupación en clústeres porque no hay ningún atributo de predicción en el modo.NODE_NAME
Siempre lo mismo que NODE_UNIQUE_NAME.NODE_UNIQUE_NAME
Identificador único para el nodo dentro del modelo. Este valor no puede modificarse.NODE_TYPE
Un modelo de agrupación en clústeres genera los tipos de nodos siguientes:Identificador de nodo y Nombre
Descripción
1 (Modelo)
Nodo raíz para el modelo.
5 (Clúster)
Contiene un recuento de los casos del clúster, las características de los casos del clúster y las estadísticas que describen los valores del clúster.
NODE_CAPTION
Nombre descriptivo que se utiliza para la visualización. Cuando se crea un modelo, el valor de NODE_UNIQUE_NAME se utiliza automáticamente como título. Sin embargo, se puede cambiar el valor de NODE_CAPTION y actualizar el nombre para mostrar del clúster, ya sea mediante programación o utilizando el visor.[!NOTA]
Al volver a procesar el modelo, todos los cambios llevados a cabo en el nombre se sobrescribirán con los nuevos valores. No se pueden conservar los nombres en el modelo ni realizar un seguimiento de los cambios efectuados en los miembros del clúster entre versiones diferentes de un modelo.
CHILDREN_CARDINALITY
Estimación del número de elementos secundarios que tiene el nodo.Nodo primario: indica el número de clústeres existentes en el modelo.
Nodos de clústeres: siempre 0.
PARENT_UNIQUE_NAME
Nombre único del elemento primario del nodo.Nodo primario: siempre NULL.
Nodos de clústeres: normalmente 000.
NODE_DESCRIPTION
Descripción del nodo.Nodo primario: siempre (Todos).
Nodos de clústeres: lista separada por comas de los atributos primarios que diferencian el clúster de los otros clústeres.
NODE_RULE
No se utiliza para los modelos de agrupación en clústeres.MARGINAL_RULE
No se utiliza para los modelos de agrupación en clústeres.NODE_PROBABILITY
Probabilidad asociada a este nodo. Nodo primario: siempre 1.Nodos de clústeres: la probabilidad representa la probabilidad compuesta de los atributos, con algunos ajustes que dependen del algoritmo utilizado para crear el modelo de agrupación en clústeres.
MARGINAL_PROBABILITY
Probabilidad de alcanzar el nodo desde el nodo primario. En un modelo de agrupación en clústeres, la probabilidad marginal es siempre la misma que la probabilidad del nodo.NODE_DISTRIBUTION
Tabla que contiene el histograma de probabilidad del nodo.Nodo primario: vea la introducción a este tema.
Nodos de clústeres: representa la distribución de atributos y valores para los casos incluidos en este clúster.
NODE_SUPPORT
Número de casos que soportan este nodo. Nodo primario: indica el número de casos de entrenamiento para el modelo completo.Nodos de clústeres: indica el tamaño del clúster como número de casos.
Nota: si el modelo utiliza la agrupación en clústeres K-Means, cada caso puede pertenecer a un único clúster. Sin embargo, si el modelo utiliza la agrupación en clústeres EM, cada caso puede pertenecer a un clúster diferente y a cada caso se le asigna una distancia ponderada para cada clúster al que pertenece. Por consiguiente, para los modelos de EM, la suma del soporte para un clúster individual es mayor que el soporte para todo el modelo.
MSOLAP_MODEL_COLUMN
No se utiliza para los modelos de agrupación en clústeres.MSOLAP_NODE_SCORE
Muestra una puntuación asociada al nodo.Nodo primario: la puntuación Bayesian Information Criterion (BIC) para el modelo de agrupación en clústeres.
Nodos de clústeres: siempre 0.
MSOLAP_NODE_SHORT_CAPTION
Etiqueta que se utiliza para la visualización. Este título no se puede cambiar.Nodo primario: el tipo de modelo, modelo de clústeres.
Nodos de clústeres: el nombre del clúster. Por ejemplo, Clúster 1.
Notas
Analysis Services proporciona varios métodos para crear un modelo de agrupación en clústeres. Si desconoce el método utilizado para crear el modelo con el que está trabajando, puede recuperar los metadatos del modelo mediante programación, utilizando un cliente ADOMD o AMO, o consultando el conjunto de filas de esquema de minería de datos. Para obtener más información, vea Cómo consultar los parámetros utilizados para crear un modelo de minería de datos.
[!NOTA]
La estructura y el contenido del modelo permanecen invariables, independientemente del método de agrupación en clústeres o de los parámetros utilizados.