Compartir a través de


Explorar el modelo de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)

Ahora que ha creado la agrupación en clústeres de secuencia con el modelo de región, puede explorarla mediante el Visor de clústeres de secuencia de Microsoft en la pestaña Visor de modelos de minería de datos de Designer. El Visor de clústeres de secuencia de Microsoft contiene cinco pestañas: Diagrama de clúster, Perfiles de clúster, Características del clúster, ClusterDiscrimination y Transiciones de estado. Para obtener más información sobre cómo usar este visor, vea Examinar un modelo mediante el Visor de clústeres de secuencia de Microsoft.

Pestaña Diagrama del clúster

La pestaña Diagrama de clúster muestra gráficamente los clústeres detectados en la base de datos. El diseño del diagrama, con clústeres similares agrupados juntos, representa las relaciones entre los clústeres. De forma predeterminada, el sombreado de cada nodo representa la densidad de todos los casos del clúster: cuanto más oscuro es el sombreado del nodo, más casos contiene. Puede cambiar el significado del sombreado de los nodos para que represente la compatibilidad de un atributo y un estado dentro de cada clúster.

También puede cambiar el nombre de los clústeres para identificar los clústeres de destino y trabajar con ellos fácilmente. En este tutorial, cambiará el nombre del clúster que tiene el porcentaje más alto de clientes de la región del Pacífico y el clúster que tiene en total mayor número de casos.

Nota:

Los casos asignados a clústeres concretos pueden cambiar cuando se vuelve a procesar el modelo, en función de los datos y los parámetros del modelo. Además, si cambia el nombre de los clústeres, estos nombres se perderán cuando vuelva a procesar el modelo de minería de datos.

Para cambiar el atributo usado para resaltar los clústeres

  1. En la lista Variable de sombreado , seleccione Modelo.

  2. Seleccione Ciclismo Cap (Límite de ciclismo ) en la lista Estado .

    El diagrama se actualiza para mostrar la concentración del producto seleccionado en cada uno de los clústeres. El clúster que tiene el sombreado más oscuro contiene mayor cantidad de gorras de ciclismo (cycling cap). Puede cambiar la variable de sombreado para usar cualquier estado de cualquier columna de entrada.

  3. En la lista Variable de sombreado , seleccione Rellenado.

    Cuando cambie la variable de sombreado a Población, el diagrama se actualizará para comparar los clústeres por tamaño. El clúster con el sombreado más oscuro tendrá más casos que los demás clústeres.

Para cambiar el nombre de los nodos del modelo

  1. Cambie La variable de sombreado a Regiony establezca Estado en Pacífico.

  2. Resalte el nodo más oscuro del gráfico.

  3. Haga clic con el botón derecho en este clúster y seleccione Cambiar nombre del clúster.

  4. Escriba el nombrePacific Cluster.

  5. Cambie el valor de Variable de sombreado a Rellenado.

  6. En el gráfico actualizado, busque el clúster más oscuro, que debería ser el clúster más grande. Si a través del sombreado no puede determinar cuál es el clúster más grande, sitúe el mouse sobre cada uno de los clústeres y vea la Información sobre herramientas; a continuación, elija el clúster que contiene mayor número de casos.

  7. Haga clic con el botón derecho en este clúster y seleccione Cambiar nombre del clúster. Escriba el nuevo nombre, Largest Cluster.

Puede explorar en profundidad el nodo que representa el clúster para ver los detalles de los casos que hay en cada clúster. Esto puede resultar útil si desea tomar alguna acción sobre los resultados del análisis, como por ejemplo, enviar un correo electrónico a un cliente. También puede examinar los demás atributos de los casos que incluyó en la estructura y no se usan en el modelo, como Region e IncomeGroup. Para obtener más información sobre la obtención de detalles desde modelos de minería de datos hasta los casos subyacentes, vea Consultas de obtención de detalles (minería de datos).

Para explorar en profundidad los detalles del diagrama del clúster

  1. Haga clic con el botón derecho en Pacific Cluster, seleccione Obtención de detalles y, a continuación, seleccione Columnas modelo y estructura.

    Se abre el cuadro de diálogo Obtención de detalles . Las columnas que no se usan en el modelo, pero que están disponibles para la consulta tienen el prefijo Structure.

    Como puede ver, esta clúster contiene en su mayoría clientes de la región del Pacífico y muy pocos clientes de las demás regiones.

  2. Haga clic en el signo más de la columna anidada v Assoc Seq Line Items para ver la secuencia de artículos en un orden de clientes determinado.

  3. Cierre el cuadro de diálogo Obtención de detalles .

    Nota

    El botón Reproducir permite volver a consultar los datos; Sin embargo, la nueva consulta no cambia los datos que se muestran, a menos que el modelo se haya actualizado dinámicamente en segundo plano por algún otro proceso.

Volver a la parte superior

Pestaña Perfiles del clúster

En la pestaña Perfiles de clúster se muestran las secuencias que se encuentran en cada clúster. Los clústeres se muestran en columnas individuales a la derecha de la columna Estados .

En el visor, la fila Modelo describe la distribución general de elementos de un clúster y la fila Model.samples contiene secuencias de los elementos. Cada línea de las secuencias de color de cada celda de la fila Model.samples representa el comportamiento de un usuario seleccionado aleatoriamente en el clúster.

Cada color de un histograma de secuencia individual representa un modelo de producto. La Leyenda de minería de datos muestra las secuencias de productos usando tanto la codificación de colores como los nombres de los modelos de productos. Si agregó otras columnas al modelo para la agrupación en clústeres, como Region o Income Group, el visor incluirá una fila adicional por cada columna en la que se mostrará la distribución de estos valores en cada clúster.

Para ver las secuencias más comunes de un clúster

  1. Haga clic con el botón derecho en la fila Modelo de la columna del clúster Largest Clustery seleccione Mostrar leyenda.

    La columna Color contiene una barra sombreada que indica la frecuencia de los elementos encontrados en secuencias. Cada color representa un elemento diferente. En la columna Significado se enumeran los nombres del modelo de producto para cada color. La columna Distribución indica el porcentaje de casos que contenían este elemento en una secuencia.

  2. Cierre la leyenda de minería de datos.

  3. Haga clic con el botón derecho en la fila Model.samples de la columna con el encabezado Rellenado y seleccione Mostrar leyenda.

  4. Examinar la lista de secuencias en el modelo general.

    En Leyenda de minería de datos se muestran primero las secuencias más comunes, y, como puede ver, Mountain Tire Tube es el primer artículo de muchas secuencias. Esto significa que es muy probable que un cliente incluya primero el artículo Mountain Tire Tube en la cesta de la compra.

Para explorar en profundidad los casos en el visor de clústeres

  1. Desplácese hacia abajo en el panel Atributo hasta que encuentre la fila del Region atributo.

    La fila contiene un histograma para cada clúster del modelo, además de un histograma adicional para Population, lo que significa que todo el conjunto de casos usados en el modelo. Un histograma es una barra con colores diferentes, donde cada color representa un atributo y el tamaño de la sección coloreada de ese atributo representa el porcentaje de casos en los que aparece ese atributo.

  2. Compare los histogramas de los clústeres cuyo nombre ha cambiado Pacific Cluster y Largest Cluster. Cada clúster aparece en una columna diferente.

    En ambos se usan colores sólidos, pero los colores son diferentes.

  3. En la Region fila, pause el mouse sobre el histograma coloreado para Largest Cluster.

    En la Información sobre herramientas se muestran los porcentajes reales de casos de cada región.

  4. Haga clic con el botón derecho en el histograma coloreado en la Region fila de Pacific Cluster, seleccione Obtención de detalles y, a continuación, seleccione Solo columnas de modelo.

  5. Mueva la barra de desplazamiento para revisar todos los clientes de este clúster.

    Si vuelve a explorar en profundidad los detalles, podrá ver que la mayoría de los pedidos que contiene el clúster proceden de la región del Pacífico, pero también hay unos pocos de las regiones de Norteamérica y Europa.

  6. Cierre el cuadro de diálogo Obtención de detalles .

Volver a la parte superior

Pestaña Características del clúster

La pestaña Características del clúster resume las transiciones entre estados de un clúster mostrando barras que representan visualmente la importancia del valor de atributo para el clúster seleccionado. La columna Variables indica qué es importante para el clúster o el rellenado seleccionados: un valor determinado o la relación entre los valores, conocidos como transición. La columna Valores proporciona más detalles sobre el valor o la transición, y la columna Probabilidad representa visualmente el peso de este atributo o transición.

Para ver los atributos importantes de un clúster

  1. En la lista desplegable Clúster , seleccione Pacific Cluster.

    La lista se actualiza para mostrar las características del clúster cuyo nombre ha cambiado Pacific Cluster. En este clúster, la característica más importante es Region.

  2. Pause el mouse sobre la barra sombreada de la fila de Region.

    La probabilidad de que el valor sea Pacific es muy elevada. Para obtener más información sobre cómo interpretar estos valores, vea Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft.

  3. Examine la lista de características del clúster hasta que encuentre la primera fila de transición.

  4. Una fila de transición contiene el texto Transición en la columna Variables y alguna combinación de valores de atributo secuencial en la columna Valor . La secuencia también puede contener los puntos iniciales y los valores que faltan.

    Por ejemplo, supongamos que la transición tiene el valor [Start] -> Road Tire Tube. Esto significa que los clientes de este clúster con frecuencia incluyen primero el artículo Road Tire Tube en su cesta de la compra. Esto podría significar que el producto es un elemento popular que los clientes buscan en primer lugar o podría indicar simplemente que el producto es fácil de encontrar en el lugar de compra.

  5. Desplácese por la lista hasta que encuentre la primera transición que no tenga [Start] o que falte en ella.

    Por ejemplo, supongamos que encuentra la transición, Touring Tire, Touring Tire Tube. Esto significa que los clientes de este clúster compran a menudo estos artículos juntos, exactamente en este orden.

  6. Sitúe el mouse sobre la barra sombreada de esta transición.

    La probabilidad de esta transición se muestra en forma de porcentaje.

  7. En la lista desplegable Clúster , seleccione Rellenado (todos).

    La lista de atributos se actualiza para mostrar las características de todos los pedidos usados para crear el modelo. En este modelo de minería de datos, la característica más importante para distinguir entre clústeres es Region, con un valor de Norteamérica.

Después de revisar estas tareas, habrá observado dos cosas. La primera es que necesita una gran cantidad de datos para obtener un número significativo de combinaciones. Por ejemplo, es probable que las secuencias con las probabilidades más altas incluyan un estado [Start] o Missing .

El segundo es que hay un efecto fuerte de agrupación en clústeres en atributos para Region, lo que dificulta la visualización de los grupos de secuencias. Por tanto, decídase a crear otro modelo que use exclusivamente secuencias y no incluya las columnas de las regiones o los ingresos.

Volver a la parte superior

Pestaña Distinción del clúster

La pestaña Distinción de clústeres le ayuda a comparar dos clústeres para determinar qué atributos distinguen un clúster determinado de otro clúster. La pestaña contiene cuatro columnas: Variables, Valores, Clúster 1 y Clúster 2. Puede elegir cualquier clúster que se usará como clúster 1 y clúster 2.

La columna Variables indica el nombre del atributo, que puede ser un nombre de columna o una combinación de nombre de columna y la transición de palabras. La columna Valores muestra el valor exacto del atributo o la transición. Las barras sombreadas de las columnas del clúster 1 y el clúster 2 indican la intensidad del atributo en los clústeres que está comparando. Cuanto mayor sea la barra, mayor será la probabilidad de que incluya casos con ese atributo.

Para comparar dos clústeres usando la pestaña Distinción del clúster

  1. En la pestaña Distinción del clúster , en Cluster 1 (Clúster 1), seleccione Pacific Cluster.

    De forma predeterminada, la selección del clúster 2 cambia a Complementar el clúster del Pacífico.

    El atributo superior que distingue Pacific Cluster de todos los demás casos es la región. Region es un tipo de atributo de agrupación en clústeres que oculta otros atributos. Para evitar este efecto, intente comparar algunos de los clústeres más pequeños entre sí. Al hacerlo, la lista de atributos cambia y se pueden incluir más transiciones entre los modelos.

  2. Busque una fila de transición y sitúe el mouse sobre la barra sombreada.

    Los elementos de la columna Valores pueden incluir tanto estados como transiciones. El sombreado de cada elemento indica la puntuación de la distinción. Para obtener más información sobre el significado de las distintas puntuaciones, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia (Analysis Services - Minería de datos).

Volver a la parte superior

Pestaña Transiciones de estado

En la pestaña Transiciones de estado , puede seleccionar un clúster y examinar sus transiciones de estado. Si selecciona Población (todos) en la lista desplegable del clúster, el diagrama muestra la distribución de estados para todo el modelo de minería de datos.

Cada nodo del gráfico representa un estado o valor posible de las secuencias que está intentando analizar. El color de fondo de los nodos representa la frecuencia del estado. Las líneas conectan algunos estados, lo que indica una transición entre estados. Puede mover el control deslizante arriba o abajo para cambiar el umbral de probabilidad de las transiciones. Algunos nodos llevan asociados unos números, que indican la probabilidad de ese estado.

Para explorar las relaciones en la pestaña de Transiciones de estado

  1. En la pestaña Transiciones de estado del Visor de modelos de minería de datos, seleccione Pacific Cluster en la lista de clústeres. Asegúrese de que la opción Mostrar etiquetas perimetrales está seleccionada.

    El gráfico se actualiza para mostrar las transiciones que son más comunes en este clúster.

  2. Haga clic en cualquier nodo que esté conectado a otro nodo mediante una línea.

    El gráfico se actualiza y resalta los nodos relacionados. El valor numérico situado junto a la línea indica la probabilidad de la transición.

  3. Eleva el control deslizante hasta Todos los vínculos para aumentar el número de transiciones incluidas en el gráfico.

  4. Seleccione Rellenado (todos) en Clúster.

    Tenga en cuenta que al cargar un clúster diferente, se restablece la configuración de presentación predeterminada del gráfico, por lo que el control deslizante se sitúa de nuevo en su posición media.

  5. Haga clic en el nodo más oscuro del gráfico, que debe ser Sport-100.

    Fíjese que no hay líneas que conecten este producto con otros.

  6. Mueva hacia arriba un paso el control deslizante para aumentar el número de transiciones que se incluyen en el gráfico. Aún no vayas a Todos los vínculos .

    El gráfico se actualiza y se agregan algunas transiciones más, pero ninguna que incluya el modelo Sport-100.

  7. Mueva el control deslizante hasta Todos los vínculos. Haga clic en el nodo Sport-100, si aún no está seleccionado.

    El gráfico se actualiza para mostrar numerosas transiciones que incluyen el producto Sport-100. La dirección de la flecha de la línea de conexión indica si el artículo Sport-100 se seleccionó como primer o segundo elemento del par.

  8. Haga clic en el nodo de Touring Tire y mueva el control deslizante de nuevo hacia abajo, hasta su posición media.

    Al principio, hay muchas líneas de transición que conectan Touring Tire a otros productos, pero al aumentar el umbral de probabilidad, las transiciones menos probables se eliminan del gráfico, dejando solo la transición, Touring Tire Touring Tire > Tube. Esta transición significa que si el cliente incluye un artículo Touring Tire en la cesta de la compra, existe una gran probabilidad de que incluya a continuación el producto Touring Tire Tube.

Volver a la parte superior

Visor de árboles de contenido genérico

Este visor se puede usar para todos los modelos, sin tener en cuenta el algoritmo o tipo de modelo. El Visor de árboles de contenido de MicrosoftGeneric está disponible en la lista desplegable Visor .

Un árbol de contenido es una representación de un modelo de minería de datos como una serie de nodos, donde cada nodo representa el conocimiento adquirido acerca de los datos de entrenamiento. El nodo puede contener un patrón, un conjunto de reglas, un clúster o la definición de un intervalo de fechas que comparten ciertos atributos. El contenido exacto del nodo varía en función del algoritmo y del atributo de predicción, pero la representación general del contenido es la misma.

Puede expandir cada nodo para ver un mayor nivel de detalle y copiar el contenido de cualquier nodo en el Portapapeles. Para obtener más información, vea Examinar un modelo usando el Visor de árbol de contenido genérico de Microsoft.

Para ver los detalles de un modelo de agrupación en clústeres de secuencia usando el visor de árbol de contenido genérico

  1. En la pestaña Visor de modelos de minería de datos, haga clic en la lista Visor y seleccione Visor de árbol de contenido genérico de Microsoft.

  2. En el panel Título del nodo , haga clic en Pacific Cluster (1).

    El nombre de este nodo contiene tanto el nombre descriptivo que se asignó al clúster como el identificador de nodo subyacente. Puede usar los identificadores de nodo para explorar en profundidad otros detalles del modelo.

  3. Expanda el primer nodo secundario, denominado Nivel de secuencia para el clúster 1.

    El nodo de nivel de secuencia de un clúster contiene los detalles sobre las transiciones y los estados incluidos en dicho clúster. Puede usar estos detalles, disponibles en la columna NODE_DISTRIBUTION, para explorar las secuencias y los estados de cada clúster o del modelo en su conjunto.

  4. Continúe expandiendo los nodos y consulte los detalles en el panel del visor HTML.

Para obtener más información sobre el contenido del modelo de minería de datos y cómo usar los detalles del visor, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia (Analysis Services - Minería de datos).

Volver a la parte superior

Siguiente tarea de la lección

Crear un modelo de agrupación en clústeres de secuencia relacionado (tutorial intermedio de minería de datos)

Consulte también

Algoritmo de clústeres de secuencia de Microsoft
Ejemplos de consultas de modelos de clústeres de secuencia