Compartir a través de


Crear una estructura del modelo de minería de datos de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)

El primer paso para crear un modelo de minería de datos de agrupación en clústeres de secuencia consiste en usar el Asistente para minería de datos para crear una nueva estructura de minería de datos y un modelo de minería de datos basado en el algoritmo de agrupación en clústeres de secuencia de Microsoft.

Utilizará la misma vista del origen de datos que utilizó para el análisis de la cesta de la compra, pero agregará una columna que contenga el identificador sequence. En este escenario, la secuencia significa el orden en el que el cliente agregó los elementos a la cesta de la compra.

También agregará algunas columnas que se utilizan en uno de los modelos para agrupar los clientes por datos demográficos.

Para crear un modelo y una estructura de agrupación en clústeres de secuencia

  1. En Explorador de soluciones en SQL Server Data Tools (SSDT), haga clic con el botón derecho en Estructuras de minería de datos y seleccione Nueva estructura de minería de datos.

  2. En la página de inicio del Asistente para minería de datos , haga clic en Siguiente.

  3. En la página Seleccionar el método de definición , compruebe que en la base de datos relacional o el almacenamiento de datos existente está seleccionada y, a continuación, haga clic en Siguiente.

  4. En la página Crear la estructura de minería de datos , compruebe que la opción Crear estructura de minería de datos con un modelo de minería de datos está seleccionada. A continuación, haga clic en la lista desplegable de la opción ¿Qué técnica de minería de datos desea usar? y seleccione Clústeres de secuencia de Microsoft. Haga clic en Next.

    Aparece la página Seleccionar vista del origen de datos . En Vistas de origen de datos disponibles, seleccione Orders.

    Orders es la misma vista del origen de datos que utilizó para el escenario de la cesta de la compra. Si no ha creado esta vista del origen de datos, consulte Adición de una vista del origen de datos con tablas anidadas (Tutorial intermedio de minería de datos).

  5. Haga clic en Next.

  6. En la página Especificar tipos de tabla , active la casilla Case situada junto a la tabla vAssocSeqOrders y active la casilla Anidada situada junto a la tabla vAssocSeqLineItems . Haga clic en Next.

    Nota

    Si se produce un error al activar las casillas Caso o Anidado , es posible que la combinación en la vista del origen de datos no sea correcta. La tabla anidada, vAssocSeqLineItems, debe estar conectada a la tabla case, vAssocSeqOrders, mediante una combinación de varios a uno. Puede modificar la relación haciendo clic con el botón secundario en la línea de combinación e invirtiendo entonces la dirección de la unión. Para obtener más información, vea Cuadro de diálogo Crear o editar relación (Analysis Services - Datos multidimensionales).

  7. En la página Especificar los datos de entrenamiento , seleccione las columnas que se usarán en el modelo activando una casilla como se indica a continuación:

    • IncomeGroup Active la casilla Entrada .

      Esta columna contiene información interesante sobre los clientes que puede utilizar para la agrupación en clústeres. La utilizará en el primer modelo y, a continuación, la omitirá en el segundo.

    • OrderNumber Active la Key casilla.

      Este campo se utilizará como identificador para la tabla de casos o Key. En general, nunca debería utilizar el campo clave de la tabla de casos como una entrada, porque la clave contiene valores únicos que no son útiles para la agrupación en clústeres.

    • Región Active la casilla Entrada .

      Esta columna contiene información interesante sobre los clientes que puede utilizar para la agrupación en clústeres. La utilizará en el primer modelo y, a continuación, la omitirá en el segundo.

    • LineNumber Active las Key casillas y Entrada .

      El campo LineNumber se usará como identificador de la tabla anidada o Sequence Key. La clave para una tabla anidada siempre se debe utilizar para la entrada.

    • Modelo Active las casillas Entrada y Predicción .

    Compruebe que las selecciones son correctas y, a continuación, haga clic en Siguiente.

  8. En la página Especificar el contenido y el tipo de datos de las columnas , compruebe que la cuadrícula contiene las columnas, los tipos de contenido y los tipos de datos que se muestran en la tabla siguiente y, a continuación, haga clic en Siguiente.

    Tablas y columnas Tipo de contenido Tipo de datos
    IncomeGroup Discrete Texto
    OrderNumber Clave Texto
    Region Discrete Texto
    vAssocSeqLineItems
    Line Number Key Sequence long
    Modelo Discrete Texto
  9. En la página Crear conjunto de pruebas , cambie el porcentaje de datos para las pruebas a 20 y, a continuación, haga clic en Siguiente.

  10. En la página Finalización del Asistente , en nombre de la estructura de minería de datos, escriba Sequence Clustering with Region.

  11. Para el nombre del modelo de minería de datos, escriba Sequence Clustering with Region.

  12. Active la casilla Permitir obtención de detalles y, a continuación, haga clic en Finalizar.

Siguiente tarea de la lección

Procesar el modelo de agrupación en clústeres de secuencia

Consulte también

Data Mining Designer
Algoritmo de clústeres de secuencia de Microsoft