Crear predicciones en un modelo de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)
Después de comprender mejor el modelo de agrupación en clústeres de secuencia si lo examina en el visor, puede crear consultas de predicción mediante el Generador de consultas de predicción en la pestaña Predicción del modelo de minería de datos en minería de datos Designer. Para crear una predicción, seleccione primero el modelo de agrupación en clústeres de secuencia y, a continuación, seleccione los datos de entrada. Para las entradas, puede utilizar un origen de datos externo o puede crear una consulta singleton y proporcionar los valores en un cuadro de diálogo.
En esta lección se presupone que sabe utilizar el Generador de consultas de predicción y desea obtener información acerca de cómo se crean consultas específicas para un modelo de agrupación en clústeres de secuencia. Para obtener información general sobre cómo usar el Generador de consultas de predicción, vea Interfaces de consulta de minería de datos o la sección del tutorial Básico de minería de datos, Creación de predicciones (Tutorial básico de minería de datos).
Crear predicciones en el modelo regional
En este escenario, primero creará algunas consultas de predicción singleton para hacerse una idea del modo en que las predicciones pueden variar según la región.
Para crear una consulta singleton en un modelo de agrupación en clústeres de secuencia
Haga clic en la pestaña Predicción del modelo de minería de datos de Designer.
En el menú de columna Modelo de minería de datos, seleccione Consulta singleton.
Aparecerá el panel Modelo de minería de datos y el panel Entrada de consulta singleton .
En el panel Modelo de minería de datos, haga clic en Seleccionar modelo. (Puede omitir este paso si el agrupación en clústeres de secuencia ya está seleccionado).
Se abre el cuadro de diálogo Seleccionar modelo de minería de datos .
Expanda el nodo que representa la estructura de minería de datos Sequence Clustering with Region (Agrupación en clústeres de secuencia de minería de datos con región) y seleccione el modelo Sequence Clustering with Region (Agrupación en clústeres de secuencia con región). Haga clic en OK. De momento haga caso omiso al panel de entrada. Especificará los datos de entrada cuando haya configurado las funciones de predicción.
En la cuadrícula, haga clic en la celda vacía en Origen y seleccione Función de predicción. En la celda en Campo, seleccione PredictSequence.
Nota
También puede usar la función Predict . Si lo hace, asegúrese de elegir la versión de la función Predict que toma una columna de tabla como argumento.
En el panel Modelo de minería de datos, seleccione la tabla
v Assoc Seq Line Items
anidada y arrástrela a la cuadrícula, hasta el cuadro Criterios/Argumento de la función PredictSequence .Arrastrar y quitar nombres de tabla y columna le permite crear instrucciones complejas sin errores de sintaxis. Sin embargo, reemplaza el contenido actual de la celda, que incluye otros argumentos opcionales para la función PredictSequence . Para consultar los demás argumentos, puede agregar provisionalmente una segunda instancia de la función a la cuadrícula como referencia.
Haga clic en el botón Resultado en la esquina superior del Generador de consultas de predicción.
Los resultados esperados contienen una sola columna con el encabezado Expression. La columna Expresión contiene una tabla anidada con tres columnas de la siguiente manera:
$SEQUENCE | Line Number | Modelo |
---|---|---|
1 | Mountain-200 |
¿Qué significan estos resultados? Recuerde que no especificó ninguna entrada. Por tanto, la predicción se realiza con todos los datos de casos rellenados, y Analysis Services devuelve la predicción que, en términos generales, es más probable.
Agregar entradas a una consulta de predicción singleton
Hasta ahora, no había especificado ninguna entrada. En la siguiente tarea, usará el panel Entrada de consulta singleton para especificar algunas entradas para la consulta. En primer lugar, utilizará [Region] como entrada en el modelo de agrupación en clústeres de secuencia regional para determinar si las secuencias predichas son las mismas en todas las regiones. A continuación, aprenderá a modificar la consulta para agregar la probabilidad de cada predicción y simplificará los resultados para que resulte más sencillo consultarlos.
Para generar predicciones de un grupo de clientes concreto
Haga clic en el botón Diseño de la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de creación de consultas.
En el cuadro de diálogo Entrada de consulta singleton , haga clic en el cuadro Valor de
Region
y seleccione Europa.Haga clic en el botón Resultado para ver las predicciones de los clientes de Europa.
Haga clic en el botón Diseño de la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de creación de consultas.
En el cuadro de diálogo Entrada de consulta singleton, haga clic en el cuadro Valor de
Region
y seleccione Norteamérica.Haga clic en el botón Resultado para ver las predicciones de los clientes en Norteamérica.
Agregar probabilidades utilizando una expresión personalizada
Generar la probabilidad de cada predicción resulta algo más complicado, pues la probabilidad es un atributo de predicción y se genera como una tabla anidada. Si conoce las extensiones de minería de datos (DMX), puede modificar con facilidad la consulta y agregar una instrucción sub-SELECT a la tabla anidada. No obstante, también puede crear una instrucción sub-SELECT en el Generador de consultas de predicción mediante una expresión personalizada.
Para generar probabilidades de una secuencia de predicción utilizando una expresión personalizada
Haga clic en el botón Diseño de la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de creación de consultas.
En la cuadrícula, en Origen, haga clic en una nueva fila y seleccione Expresión personalizada.
Deje el cuadro debajo de Campo en blanco.
En Alias, escriba
t
.En el cuadro Criteria/Argument (Criterios/argumento ), escriba la instrucción complete sub-select como se muestra en el ejemplo de código siguiente. No olvide incluir los paréntesis de apertura y cierre.
(SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))
Haga clic en el botón Resultado para ver las predicciones de los clientes de Europa.
Los resultados contienen dos tablas anidadas: una con la predicción y otra con la probabilidad de la predicción. Si la consulta no funciona, puede cambiar a la vista de diseño de consultas y revisar toda la instrucción de consulta, que debería ser como la siguiente:
SELECT
PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]),
( (SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))) as [t]
FROM
[Sequence Clustering with Region]
NATURAL PREDICTION JOIN
(SELECT 'Europe' AS [Region]) AS t
Trabajar con resultados
Cuando hay muchas tablas anidadas en los resultados, es posible que desee simplificar los resultados para facilitar su consulta. Para ello, puede modificar la consulta manualmente y agregar la palabra clave FLATTENED
.
Para simplificar los conjuntos de filas anidados de una consulta de predicción
Haga clic en el botón Consulta de la esquina del Generador de consultas de predicción.
La cuadrícula cambia a un panel abierto donde puede ver y modificar la instrucción DMX que creó el Generador de consultas de predicción.
Después de la palabra clave
SELECT
, escribaFLATTENED
.El texto completo de la consulta debería ser similar al siguiente:
SELECT FLATTENED PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]), ( (SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))) as [t] FROM [Sequence Clustering with Region] NATURAL PREDICTION JOIN (SELECT 'Europe' AS [Region]) AS t
Haga clic en el botón Resultados en la esquina superior del Generador de consultas de predicción.
Después de editar la consulta manualmente, no podrá volver a la vista Diseño sin perder los cambios. Sin embargo, puede guardar la instrucción DMX que creó manualmente en un archivo de texto y, a continuación, cambiar de nuevo a la vista Diseño. Al hacer esto, la consulta se revierte a la última versión que fue válida en la vista Diseño.
Crear predicciones en el modelo relacionado
En los ejemplos anteriores se utilizó una columna de una tabla de casos, Region, como entrada de la consulta de predicción singleton, porque lo que se pretendía era saber si el modelo encontraba diferencias entre las regiones. Sin embargo, después de analizar el modelo, decidió que las diferencias no eran lo suficientemente sólidas como para justificar que las recomendaciones del producto se personalizaran según la región. Lo que realmente le interesa predecir son los artículos que seleccionan los clientes. Por tanto, en las consultas siguientes, utilizará el modelo de agrupación en clústeres de secuencia que no incluye Region para generar las recomendaciones de todos los clientes.
Utilizar las columnas de una tabla anidada como entrada
En primer lugar, creará una consulta de predicción singleton que tome un único elemento como entrada y devuelva el siguiente elemento más probable. Para obtener una predicción de este tipo, deberá utilizar una columna de tabla anidada como valor de entrada. Esto se debe a que el atributo que está prediciendo, Modelo, forma parte de una tabla anidada. Analysis Services proporciona el cuadro de diálogo Entrada de tabla anidada para ayudarle a crear fácilmente consultas de predicción en atributos de tabla anidada mediante el Generador de consultas de predicción.
Para utilizar una tabla anidada como entrada de una predicción
Haga clic en el botón Diseño de la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de creación de consultas.
En el cuadro de diálogo Entrada de consulta singleton , haga clic en el cuadro Valor de
Region
y seleccione la fila vacía para borrar la entrada de este campo.En el cuadro de diálogo Entrada de consulta singleton , haga clic en el cuadro Valor de
vAssocSeqLineItems
y, a continuación, haga clic en el botón (...) .En el cuadro de diálogo Entrada de tabla anidada , haga clic en Agregar.
En la nueva fila, haga clic en el cuadro debajo
Model
de y seleccione Touring Tire en la lista. Haga clic en OK.Haga clic en el botón Resultado para ver las predicciones.
El modelo recomienda los elementos siguientes para todos los clientes que eligen Touring Tire como primer artículo. Al examinar el modelo, ya sabe que los clientes compran con frecuencia los productos Touring Tire de y Touring Tire Tube juntos, por lo que estas recomendaciones parecen buenas.
$SEQUENCE | Line Number | Modelo |
---|---|---|
1 | Touring Tire Tube | |
2 | Sport-100 | |
3 | Long-Sleeve Logo Jersey |
Crear una consulta de predicción masiva utilizando entradas de una tabla anidada
Ahora que el modelo crea el tipo de predicciones adecuado, por lo que se puede utilizar para realizar recomendaciones, creará una consulta de predicción que se asignará a un origen de datos externo. Ese origen de datos proporcionará valores que representan los productos actuales. Dado que lo que le interesa es crear una consulta de predicción que proporcione un identificador de cliente y una lista de productos como entrada, incorporará la tabla de clientes como la tabla de casos y la tabla de compras como la tabla anidada. A continuación, agregará funciones de predicción, tal y como hizo anteriormente, para crear recomendaciones.
Este procedimiento es el mismo que el que utilizó para crear predicciones en el escenario de la cesta de compra de la lección 3; sin embargo, en un modelo de agrupación en clústeres de secuencia, las predicciones también necesitan el pedido como entrada.
Para crear una consulta de predicción utilizando las entradas de una tabla anidada
En el panel Modelo de minería de datos, seleccione el modelo de agrupación en clústeres de secuencia, si aún no está seleccionado.
En el cuadro de diálogo Seleccionar tablas de entrada , haga clic en Seleccionar tabla de casos.
En el cuadro de diálogo Seleccionar tabla , en Origen de datos, seleccione Pedidos. En la lista Nombre de tabla/vista , seleccione vAssocSeqOrders y, a continuación, haga clic en Aceptar.
En el cuadro de diálogo Seleccionar tablas de entrada , haga clic en Seleccionar tabla anidada.
En el cuadro de diálogo Seleccionar tabla , en Origen de datos, seleccione Pedidos. En la lista Nombre de tabla o vista , seleccione vAssocSeqLineItems y, a continuación, haga clic en Aceptar.
Analysis Services intentará detectar las relaciones y crearlas automáticamente si los tipos de datos coinciden y los nombres de columna son similares. Si las relaciones que crea son incorrectas, puede hacer clic con el botón derecho en la línea de combinación y seleccionar Modificar conexiones para editar la asignación de columnas, o bien puede hacer clic con el botón derecho en la línea de combinación y seleccionar Eliminar para quitar la relación por completo. En este caso, dado que las tablas ya estuvieron unidas en la vista del origen de datos, esas relaciones se agregan automáticamente al panel de diseño.
Agregue una nueva fila a la cuadrícula. En Origen, seleccione vAssocSeqOrders y, en Campo, seleccione CustomerKey.
Agregue una nueva fila a la cuadrícula. En Origen, seleccione Función de predicción y, en Campo, seleccione PredictSequence.
Arrastre vAssocSeqLineItems al cuadro Criterios o argumentos . Haga clic al final del cuadro Criterios/Argumento y, a continuación, escriba los argumentos siguientes:
2
.El texto completo del cuadro Criterios/Argumento debe ser:
[Sequence Clustering].[v Assoc Seq Line Items],2
Haga clic en el botón Resultado para ver las predicciones de cada cliente.
Ha completado el tutorial sobre modelos de agrupación en clústeres de secuencia.
Pasos siguientes
Si ha terminado todas las secciones del Tutorial intermedio de minería de datos (Analysis Services - Minería de datos), es posible que el siguiente paso sea aprender a usar instrucciones de Extensiones de minería de datos (DMX) para crear modelos y generar predicciones. Para obtener más información, vea Crear y consultar modelos de minería de datos con DMX: Tutoriales (Analysis Services - Minería de datos).
Si tiene algunos conceptos de programación, también puede utilizar Objetos de administración de análisis (AMO) para trabajar mediante programación con objetos de minería de datos. Para obtener más información, vea Clases de minería de datos de AMO.
Consulte también
Ejemplos de consultas de modelos de clústeres de secuencia
Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia(Analysis Services - Minería de datos)