Contenido del modelo de minería de datos para los modelos de serie temporal (Analysis Services - Minería de datos)
Todos los modelos de minería de datos utilizan la misma estructura para almacenar su contenido. Esta estructura se define según el conjunto de filas de esquema del contenido de minería de datos. Sin embargo, dentro de esa estructura estándar, los nodos que contienen información se organizan de maneras diferentes para representar diversos tipos de árboles. En este tema se describe cómo se organizan los nodos y lo que significa cada nodo para los modelos de minería de datos que se basan en el algoritmo de serie temporal de Microsoft.
Para obtener una explicación del contenido del modelo de minería de datos general que se aplica a todos los tipos de modelos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Al revisar este tema, podría ser de utilidad seguirlo y examinar a la vez el contenido de un modelo de serie temporal. Puede crear un modelo de serie temporal completando el Tutorial básico de minería de datos. El modelo que se crea en el tutorial es un modelo mixto que entrena los datos utilizando los algoritmos ARIMA y ARTxp. Para obtener más información, vea Crear una estructura de pronóstico y un modelo (tutorial intermedio de minería de datos). Para obtener información sobre cómo visualizar el contenido de un modelo de minería de datos, vea Ver un modelo de minería de datos.
Descripción de la estructura de un modelo de serie temporal
Un modelo de serie temporal tiene un nodo primario único que representa el modelo y sus metadatos. Debajo de ese nodo primario hay uno o dos árboles de serie temporal, según el algoritmo que se haya usado para crear el modelo.
Si crea un modelo mixto, se agregan al modelo dos árboles independientes: uno para ARIMA y el otro para ARTxp. Si decide utilizar sólo el algoritmo ARTxp o sólo el algoritmo ARIMA, tendrá un único árbol que corresponda a ese algoritmo. Puede especificar el algoritmo que desea utilizar estableciendo el parámetro FORECAST_METHOD. Para obtener más información sobre si utilizar ARTxp, ARIMA o un modelo mixto, vea Algoritmo de serie temporal de Microsoft.
En el diagrama se muestra un ejemplo de un modelo de minería de datos de serie temporal que se creó con la configuración predeterminada para crear un modelo mixto. Para poder comparar más fácilmente las diferencias entre los dos modelos, ARTxp se muestra aquí en el lado izquierdo del diagrama mientras que ARIMA se muestra en el lado derecho. Mientras que ARTxp es una estructura similar a un árbol que se divide en bifurcaciones cada vez menores, la estructura creada por el algoritmo ARIMA es más parecida a una pirámide que se genera a partir de los componentes más pequeños.
Si ve un modelo mixto utilizando el Visor de árbol de contenido genérico de Microsoft, los nodos de los modelos ARTxp y ARIMA se presentan todos como nodos secundarios del modelo de serie temporal primario. En la vista genérica de un modelo mixto, el primer conjunto de nodos se etiqueta (Todos) y representa los resultados del análisis del algoritmo ARTxp. El segundo conjunto de nodos se etiqueta ARIMA y representa los resultados del análisis del algoritmo ARIMA.
Una cuestión importante que hay que recordar es que la información se organiza dentro de los árboles ARIMA y ARTxp de maneras completamente diferentes, y se deben considerar los dos árboles como si únicamente se relacionaran en el nodo raíz. Aunque las dos representaciones se presentan en un modelo por comodidad, se deben tratar como dos modelos independientes. ARTxp representa una estructura de árbol real, pero ARIMA no.
Nota
El nombre (Todos) en el árbol ARTxp se conserva para mantener la compatibilidad con versiones anteriores. Antes de SQL Server 2008, el algoritmo de serie temporal usaba un algoritmo único para el análisis: ARTxp.
Estructura del modelo ARTxp
El algoritmo ARTxp crea un modelo similar a un modelo de árboles de decisión. Agrupa los atributos de predicción y los divide cada vez que se encuentran diferencias significativas. Por consiguiente, cada modelo ARTxp contiene una bifurcación independiente para cada atributo de predicción. Por ejemplo, en el Tutorial básico de minería de datos se crea un modelo que predice la cantidad de ventas para varias regiones. En este caso, [Amount] es el atributo de predicción y para cada región se crea una bifurcación independiente. Si tuviera dos atributos de predicción, [Amount] y [Quantity], se crearía una bifurcación independiente para cada combinación de atributo y región.
El nodo superior de la bifurcación de ARTxp contiene la misma información que hay en un nodo raíz del árbol de decisión. Esto incluye el número de elementos secundarios para ese nodo (CHILDREN_CARDINALITY), el número de casos que satisfacen las condiciones de este nodo (NODE_SUPPORT) y diversas estadísticas descriptivas (NODE_DISTRIBUTION).
Si el nodo no tiene ningún elemento secundario, esto significa que no se encontró ninguna condición significativa que justificara dividir los casos en más subgrupos. La bifurcación finaliza en este punto y el nodo se denomina nodo hoja. El nodo hoja contiene los atributos, coeficientes y valores que constituyen las unidades de construcción de la fórmula ARTxp.
Algunas bifurcaciones pueden tener divisiones adicionales, igual que en un modelo de árboles de decisión. Por ejemplo, la bifurcación del árbol que representa las ventas para la región Europe se divide en dos bifurcaciones. Una división se produce cuando existe una condición que origina una diferencia significativa entre los dos grupos. El nodo primario indica el nombre del atributo que produjo la división, como [Amount], y cuántos casos hay en el nodo primario. Los nodos hoja proporcionan más detalles: el valor del atributo, como Sales > 10.000 frente a Sales < 20.000, el número de casos que admiten cada condición y la fórmula ARTxp.
Nota
Si desea ver las fórmulas, puede encontrar la fórmula de regresión total en el nivel del nodo hoja, pero no en un nodo intermedio o raíz.
Estructura del modelo ARIMA
Para cada combinación de una serie de datos (como [Region]) y de un atributo de predicción (como [Sales Amount]), hay un fragmento único de información: la ecuación que describe el cambio del atributo de predicción a lo largo del tiempo.
La ecuación básica para cada serie se deriva de varios componentes, uno para cada estructura periódica que se encontró en los datos. Por ejemplo, si tiene datos de ventas que se recopilan mensualmente, el algoritmo podría detectar estructuras periódicas mensualmente, trimestralmente o anualmente.
El algoritmo genera un conjunto independiente de nodos primarios y secundarios para cada periodicidad que encuentra. La periodicidad predeterminada es 1, para un intervalo de tiempo único, y se agrega automáticamente en todos los modelos. Puede especificar posibles estructuras periódicas especificando varios valores en el parámetro PERIODICITY_HINT. Sin embargo, si el algoritmo no detecta una estructura periódica, no generará resultados para esa sugerencia.
Cada estructura periódica que se genera en el contenido del modelo incluye los nodos de componente siguientes: un nodo para el orden de regresión automática (AR) y un nodo para la media móvil (MA). El orden de diferencia se representa en la ecuación. Para obtener información sobre el significado de estos términos, vea Algoritmo de serie temporal de Microsoft.
Contenido del modelo para la serie temporal
En esta sección sólo se proporcionan detalles y ejemplos de las columnas del contenido del modelo de minería de datos que tienen una relevancia especial para los modelos de serie temporal.
Para obtener información sobre las columnas de uso general en el conjunto de filas de esquema, como MODEL_CATALOG y MODEL_NAME, o para obtener una explicación de la terminología del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
MODEL_CATALOG
Nombre de la base de datos en la que se almacena el modelo.MODEL_NAME
Nombre del modelo.ATTRIBUTE_NAME
Atributo de predicción para la serie de datos representada en el nodo. (El mismo valor que para MSOLAP_MODEL_COLUMN).NODE_NAME
Nombre del nodo. Actualmente, esta columna contiene el mismo valor que NODE_UNIQUE_NAME, aunque esto podría cambiar en versiones futuras.NODE_UNIQUE_NAME
Nombre único del nodo. El nodo primario del modelo siempre se denomina TS.ARTxp: cada nodo se representa mediante TS seguido de un valor numérico hexadecimal. Por ejemplo, los nodos ARTxp que se encuentran directamente debajo del árbol TS se podrían numerar como TS00000001-TS0000000b. El orden de los nodos no es significativo.
ARIMA: cada nodo de un árbol ARIMA se representa mediante TA seguido de un valor numérico hexadecimal. Los nodos secundarios contienen el nombre único del nodo primario seguido de otro número hexadecimal que indica la secuencia dentro del nodo.
Todos los árboles ARIMA se estructuran exactamente igual. Cada raíz contiene los nodos y la convención de nomenclatura ejemplificados en la tabla siguiente:
Identificador de nodo ARIMA y tipo
Ejemplo de nombre de nodo
Raíz ARIMA (27)
TA0000000b
Estructura periódica ARIMA (28)
TA0000000b00000000
Regresión automática ARIMA (29)
TA0000000b000000000
Media móvil ARIMA (30)
TA0000000b000000001
NODE_TYPE
Un modelo de serie temporal genera los tipos de nodo siguientes, según el algoritmo.ARTxp:
Identificador del tipo de nodo
Descripción
1 (modelo)
Serie temporal
3 (interior)
Representa una bifurcación interior dentro de un árbol de serie temporal ARTxp.
16 (árbol de serie temporal)
Raíz del árbol ARTxp que corresponde a un atributo de predicción y una serie.
15 (serie temporal)
Nodo hoja en el árbol ARTxp.
ARIMA:
Identificador del tipo de nodo
Descripción
27 (raíz ARIMA)
Nodo superior de un árbol ARIMA.
28 (estructura periódica ARIMA)
Componente de un árbol ARIMA que describe una estructura periódica única.
29 (regresión automática ARIMA)
Contiene un coeficiente para una estructura periódica única.
30 (media móvil ARIMA)
Contiene un coeficiente para una estructura periódica única.
NODE_CAPTION
Etiqueta o título asociado al nodo. Esta propiedad se usa principalmente para la presentación.ARTxp: contiene la condición de división para el nodo, que se muestra como una combinación de atributo e intervalo de valores.
ARIMA: contiene la forma abreviada de la ecuación ARIMA.
Para obtener información sobre el formato de la ecuación ARIMA, vea Leyenda de minería de datos para ARIMA.
CHILDREN_CARDINALITY
Número de elementos segundarios directos que tiene el nodo.PARENT_UNIQUE_NAME
Nombre único del nodo primario del nodo. Se devuelve NULL para todos los nodos del nivel raíz.NODE_DESCRIPTION
Descripción de texto de las reglas, divisiones o fórmulas del nodo actual.ARTxp: para obtener más información, vea Descripción del árbol ARTxp.
ARIMA: para obtener más información, vea Descripción del árbol ARIMA.
NODE_RULE
Descripción XML de las reglas, divisiones o fórmulas en el nodo actual.ARTxp: NODE_RULE corresponde generalmente a NODE_CAPTION.
ARIMA: para obtener más información, vea Descripción del árbol ARIMA.
MARGINAL_RULE
Descripción XML de la división o del contenido específico de ese nodo.ARTxp: MARGINAL_RULE corresponde generalmente a NODE_DESCRIPTION.
ARIMA: siempre en blanco; utilice en su lugar NODE_RULE.
NODE_PROBABILITY
ARTxp: para los nodos de árbol, siempre es 1. Para los nodos hoja, la probabilidad de alcanzar el nodo desde el nodo raíz del modelo.ARIMA: siempre es 0.
MARGINAL_PROBABILITY
ARTxp: para los nodos de árbol, siempre es 1. Para los nodos hoja, es la probabilidad de alcanzar el nodo desde el nodo primario inmediato.ARIMA: siempre es 0.
NODE_DISTRIBUTION
Tabla que contiene el histograma de probabilidad del nodo. En un modelo de serie temporal, esta tabla anidada contiene todos los componentes necesarios para ensamblar la fórmula de regresión real.Para obtener más información sobre la tabla de distribución de nodos en un árbol ARTxp, vea Descripción del árbol ARTxp.
Para obtener más información sobre la tabla de distribución de nodos en un árbol ARIMA, vea Descripción del árbol ARIMA.
Si desea ver todas las constantes y otros componentes creados en un formato legible, utilice el Visor de series temporales, haga clic en el nodo y abra la Leyenda de minería de datos.
NODE_SUPPORT
Número de los casos que admiten este nodo.ARTxp: para el nodo (Todos), indica el número total de intervalos de tiempo incluidos en la bifurcación. Para los nodos terminales, indica el número de intervalos de tiempo que se incluyen en el intervalo que se describe mediante NODE_CAPTION. El número de intervalos de tiempo en los nodos terminales siempre se suma al valor NODE_SUPPORT del nodo (Todos) de la bifurcación.
ARIMA: recuento de los casos que admiten la estructura periódica actual. El valor de los casos admitidos se repite en todos los nodos de la estructura periódica actual.
MSOLAP_MODEL_COLUMN
Atributo de predicción para la serie de datos representada en el nodo. (El mismo valor que para ATTRIBUTE_NAME).MSOLAP_NODE_SCORE
Valor numérico que caracteriza el valor de información del árbol o división.ARTxp: el valor siempre es 0,0 para los nodos sin una división. Para los nodos con una división, representa la puntuación de grado de interés de la división.
Para obtener más información acerca de los métodos de puntuación, vea Selección de características en minería de datos.
ARIMA: puntuación del criterio de información Bayesiano (BIC, Bayesian Information Criterion) del modelo ARIMA. La misma puntuación se establece en todos los nodos ARIMA relacionados con la ecuación.
MSOLAP_NODE_SHORT_CAPTION
ARTxp: la misma información que NODE_DESCRIPTION.ARIMA: la misma información que NODE_CAPTION, es decir, la forma abreviada de la ecuación ARIMA.
Descripción del árbol ARTxp
El modelo ARTxp separa claramente las áreas de los datos que son lineales de las áreas de los datos que se dividen en algún otro factor. Siempre que los cambios en el atributo de predicción se pueden representar directamente como una función de las variables independientes, se calcula una fórmula de regresión para representar dicha relación. Por ejemplo, si hay una correlación directa entre el tiempo y las ventas de la mayoría de las series de datos, cada serie estará contenida dentro de un árbol de serie temporal (NODE_TYPE=16) que no tiene ningún nodo secundario para cada serie de datos, sólo una ecuación de regresión. Sin embargo, si la relación no es lineal, un árbol de serie temporal ARTxp puede dividir las condiciones en nodos secundarios, igual que un modelo de árbol de decisión. Al ver el contenido del modelo en el Visor de árbol de contenido genérico de Microsoft, puede saber dónde se producen las divisiones y cómo afecta esto a la línea de tendencias.
Por ejemplo, revise el modelo de serie temporal creado en el Tutorial básico de minería de datos. Este modelo, tomado de Adventure Works, no se basa en datos complejos. Por consiguiente, no hay muchas divisiones en el árbol ARTxp. Sin embargo, incluso este modelo relativamente simple ilustra tres tipos diferentes de divisiones:
La línea de tendencias Amount para la región Pacific se divide en la clave temporal. Una división en la clave temporal significa que hay un cambio en la tendencia en un momento dado. La línea de tendencias sólo fue lineal hasta un cierto punto y, a continuación, la curva asumió una forma diferente. Por ejemplo, una serie temporal podría continuar hasta el 6 de agosto de 2002, y otra iniciarse después de esa fecha.
La línea de tendencias Amount para la región North America se divide en otra variable. En este caso, la tendencia para North America se basa en el valor para el mismo modelo en la región Europe. En otras palabras, el algoritmo detectó que cuando el valor para Europe cambia, el valor para North America A también cambia.
La línea de tendencias para la región Europe se divide.
¿Qué significa cada división? Interpretar la información transmitida por el contenido del modelo es un arte que requiere un conocimiento profundo de los datos y su significado en el contexto empresarial.
El vínculo aparente entre las tendencias para las regiones North America y Europe sólo puede significar que la serie de datos para Europe tiene más entropía, lo que hace que la tendencia para North America parezca más débil. O bien, es posible que no haya ninguna diferencia significativa en la puntuación para las dos, y la correlación podría ser accidental basándose simplemente en que Europe se calcula antes que North America. Sin embargo, puede ser aconsejable revisar los datos y asegurarse de si la correlación es falsa, o investigar si podría haber algún otro factor implicado.
La división en la clave temporal significa que hay un cambio estadísticamente significativo en el gradiente de la línea. Esto podría deberse a factores matemáticos, como la compatibilidad de cada intervalo o los cálculos de entropía requeridos para la división. Así, es posible que esta división no sea interesante en lo que se refiere al significado del modelo en el mundo real. Sin embargo, al revisar el período indicado en la división, pueden encontrarse correlaciones interesantes que no están representadas en los datos, como un tipo de promoción de ventas u otro evento que comience en ese momento y pueda haber afectado a los datos.
Si los datos contuvieran otros atributos, muy probablemente habría ejemplos más interesantes de bifurcación en el árbol. Por ejemplo, si realizó el seguimiento de la información meteorológica y la utilizó como atributo para el análisis, es posible que vea varias divisiones en el árbol que representan la interacción compleja de las ventas y el tiempo meteorológico.
En resumen, la minería de datos es útil para proporcionar sugerencias sobre dónde se producen fenómenos potencialmente interesantes, pero se requieren una investigación más extensa y la experiencia de los usuarios empresariales para interpretar con precisión el valor de la información en su contexto.
Elementos de la fórmula de serie temporal ARTxp
Para ver la fórmula completa de un árbol o bifurcación ARTxp, se recomienda usar la Leyenda de minería de datos del Visor de series temporales de Microsoft, que presenta todas las constantes en un formato legible.
En esta sección se presenta una ecuación de ejemplo y se explican las condiciones básicas.
Leyenda de minería de datos para la fórmula ARTxp
En el ejemplo siguiente se muestra la fórmula ARTxp para una parte del modelo, según se ilustra en la Leyenda de minería de datos. Para ver esta fórmula, abra en el Visor de series temporales de Microsoft el modelo Forecasting que creó en el Tutorial básico de minería de datos, haga clic en la ficha Modelo y seleccione el árbol de la serie de datos R250:Europe; a continuación, haga clic en el nodo que representa la serie de la fecha 7/5/2003 o posterior.
Ejemplo de ecuación de nodo de árbol:
Quantity = 21,322
-0,293 * Quantity(R250 North America,-7) + 0,069 * Quantity(R250 Europe,-1) + 0,023 *
Quantity(R250 Europe,-3) -0,142 * Quantity(R750 Europe,-8)
En este caso, 21,322 representa el valor que se predice para Quantity como una función de los elementos de la ecuación. Por ejemplo, un elemento es Quantity(R250 North America,-7). Esta notación significa la cantidad para la región North America en t-7, o en el séptimo intervalo de tiempo antes del actual. El valor de esta serie de datos se multiplica por el coeficiente -0,293. El coeficiente para cada elemento se deriva durante el proceso de entrenamiento y se basa en las tendencias de los datos.
Hay varios elementos en esta ecuación porque el modelo ha calculado que la cantidad del modelo R250 en la región Europe depende de los valores de otras series de datos.
Contenido del modelo para la fórmula ARTxp
En la tabla siguiente se presenta la misma información para el nodo, según se muestra en el Visor de árbol de contenido genérico de Microsoft (Diseñador de minería de datos).
ATTRIBUTE_NAME |
ATTRIBUTE_VALUE |
SUPPORT |
PROBABILITY |
VARIANCE |
VALUETYPE |
---|---|---|---|---|---|
Quantity(R250 Europe,y-intercept) |
21.3223433563772 |
11 |
0 |
1.65508795539661 |
11 (intersección) |
Quantity(R250 Europe,-1) |
0.0691694140876526 |
0 |
0 |
0 |
7 (coeficiente) |
Quantity(R250 Europe,-1) |
20.6363635858123 |
0 |
0 |
182.380682874818 |
9 (estadísticas) |
Quantity(R750 Europe,-8) |
-0.1421203048299 |
0 |
0 |
0 |
7 (coeficiente) |
Quantity(R750 Europe,-8) |
22.5454545333019 |
0 |
0 |
104.362130048408 |
9 (estadísticas) |
Quantity(R250 Europe,-3) |
0.0234095979448281 |
0 |
0 |
0 |
7 (coeficiente) |
Quantity(R250 Europe,-3) |
24.8181818883176 |
0 |
0 |
176.475304989169 |
9 (estadísticas) |
Quantity(R250 North America,-7) |
-0.292914186039869 |
0 |
0 |
0 |
7 (coeficiente) |
Quantity(R250 North America,-7) |
10.36363640433 |
0 |
0 |
701.882534898676 |
9 (estadísticas) |
El modelo de minería de datos contiene la misma información que está disponible en la Leyenda de minería de datos, pero con columnas adicionales para variance y support. El valor para support indica el número de casos que admiten la tendencia descrita por esta ecuación.
Usar la fórmula de serie temporal ARTxp
Para la mayor parte de los usuarios empresariales, el valor del contenido del modelo ARTxp radica en que proporciona una vista de árbol y una representación lineal de los datos. Si los cambios en el atributo de predicción se pueden representar como una función de las variables independientes, el algoritmo calculará automáticamente la ecuación de regresión y mostrará esa serie en un nodo independiente. Sin embargo, si otros factores evitan una correlación lineal, la serie temporal se bifurca igual que un árbol de decisión. Al examinar el contenido del modelo en el Visor de series temporales de Microsoft se puede ver dónde se produce la división y cómo afecta a la línea de tendencias.
Si hay una correlación directa entre tiempo y ventas en cualquier parte de la serie de datos, la manera más fácil de obtener la fórmula es copiarla de la Leyenda de minería de datos y, a continuación, pegarla en un documento o presentación como ayuda para explicar el modelo. También podría extraer la media, el coeficiente y otra información de la tabla NODE_DISTRIBUTION para ese árbol y utilizarla con el fin de calcular extensiones de la tendencia. Si la serie completa exhibe una relación lineal coherente, la ecuación está contenida en el nodo (Todos). Si hay alguna bifurcación en el árbol, la ecuación está contenida en el nodo hoja.
La consulta siguiente devuelve todos los nodos hoja de ARTxp de un modelo de minería de datos, junto con la tabla anidada, NODE_DISTRIBUTION, que contiene la ecuación.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME,
NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [VARIANCE], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 15
Descripción del árbol ARIMA
Cada estructura de un modelo ARIMA corresponde a una periodicidad o estructura periódica. Una estructura periódica es un modelo de datos que se repite a lo largo de la serie de datos. Se permite alguna variación poco importante en el modelo, dentro de los límites estadísticos. La periodicidad se mide según las unidades de tiempo predeterminadas que se usaron en los datos de entrenamiento. Por ejemplo, si los datos de entrenamiento proporcionan datos de ventas para cada día, la unidad de tiempo predeterminada es un día y todas las estructuras periódicas se definen como un número especificado de días.
Cada período detectado por el algoritmo obtiene su propio nodo de estructura. Por ejemplo, si está analizando datos de ventas diarias, los modelos podrían detectar estructuras periódicas que representen semanas. En este caso, el algoritmo creará dos estructuras periódicas en el modelo terminado: una para el período diario predeterminado, que se indica con {1}, y otra para las semanas, que se indica con {7}.
Por ejemplo, la consulta siguiente devuelve todas las estructuras ARIMA de un modelo de minería de datos.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 27
Resultados del ejemplo:
MODEL_NAME |
ATTRIBUTE_NAME |
NODE_NAME |
NODE_TYPE |
NODE_CAPTION |
---|---|---|---|---|
Forecasting |
M200 Europe:Quantity |
TA00000000 |
27 |
ARIMA (1,0,1) |
Pronóstico |
M200 North America:Quantity |
TA00000001 |
27 |
ARIMA (1,0,4) X (1,1,4)(6) |
Forecasting |
M200 Pacific:Quantity |
TA00000002 |
27 |
ARIMA (2,0,8) X (1,0,0)(4) |
Forecasting |
M200 Pacific:Quantity |
TA00000002 |
27 |
ARIMA (2,0,8) X (1,0,0)(4) |
Forecasting |
R250 Europe:Quantity |
TA00000003 |
27 |
ARIMA (1,0,7) |
Forecasting |
R250 North America:Quantity |
TA00000004 |
27 |
ARIMA (1,0,2) |
Forecasting |
R250 Pacific:Quantity |
TA00000005 |
27 |
ARIMA (2,0,2) X (1,1,2)(12) |
Forecasting |
R750 Europe:Quantity |
TA00000006 |
27 |
ARIMA (2,1,1) X (1,1,5)(6) |
Forecasting |
T1000 Europe:Quantity |
TA00000009 |
27 |
ARIMA (1,0,1) |
Forecasting |
T1000 North America:Quantity |
TA0000000a |
27 |
ARIMA (1,1,1) |
Forecasting |
T1000 Pacific:Quantity |
TA0000000b |
27 |
ARIMA (1,0,3) |
Con estos resultados, que también puede examinar mediante el Visor de árbol de contenido genérico de Microsoft (Diseñador de minería de datos), puede indicar de un vistazo qué series son completamente lineales, cuáles tienen varias estructuras periódicas, y cuáles son las periodicidades detectadas.
Por ejemplo, la forma abreviada de la ecuación ARIMA para la serie M200 Europe indica que sólo se detectó el ciclo predeterminado: diariamente. La forma abreviada de la ecuación se proporciona en la columna NODE_CAPTION.
Sin embargo, para la serie M200 North America, se encontró una estructura periódica adicional. El nodo TA00000001 tiene dos nodos secundarios, uno con la ecuación, (1,0,4), y otro con la ecuación, (1,1,4)(6). Estas ecuaciones se concatenan y se presentan en el nodo primario.
Para cada estructura periódica, el contenido del modelo también proporciona el orden y la media móvil como nodos secundarios. Por ejemplo, la consulta siguiente recupera los nodos secundarios de uno de los nodos enumerados en el ejemplo anterior. Observe que la columna, PARENT_UNIQUE_NAME, debe ir entre corchetes para distinguirla de la palabra clave reservada con la misma denominación.
SELECT *
FROM Forecasting.CONTENT
WHERE [PARENT_UNIQUE_NAME] = ' TA00000001'
Dado que este es un árbol ARIMA, no un árbol ARTxp, no de puede utilizar la función IsDescendant (DMX) para devolver los nodos que sean secundarios de esta estructura periódica. En su lugar, se pueden utilizar los tipos de nodo y atributo para filtrar los resultados, y devolver los nodos secundarios que proporcionan más detalles sobre cómo se generó la ecuación, incluidos las medias móviles y el orden de diferencia.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_UNIQUE_NAME,
NODE_TYPE, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE [MSOLAP_MODEL_COLUMN] ='M200 North America:Quantity'
AND (NODE_TYPE = 29 or NODE_TYPE = 30)
Resultados del ejemplo:
MODEL_NAME |
ATTRIBUTE_NAME |
NODE_UNIQUE_NAME |
NODE_TYPE |
NODE_CAPTION |
---|---|---|---|---|
Forecasting |
M200 North America:Quantity |
TA00000001000000010 |
29 |
ARIMA {1,0.961832044807041} |
Forecasting |
M200 North America:Quantity |
TA00000001000000011 |
30 |
ARIMA {1,-3.51073103693271E-02,2.15731642954099,-0.220314343327742,-1.33151478258758} |
Forecasting |
M200 North America:Quantity |
TA00000001000000000 |
29 |
ARIMA {1,0.643565911081657} |
Forecasting |
M200 North America:Quantity |
TA00000001000000001 |
30 |
ARIMA {1,1.45035399809581E-02,-4.40489283927752E-02,-0.19203901352577,0.242202497643993} |
Estos ejemplos muestran que cuanto más explore en profundidad en el árbol ARIMA, más detalles se revelarán, pero la información importante se combina y se presenta también en el nodo primario.
Fórmula de serie temporal para ARIMA
Para ver la fórmula completa de cualquier nodo ARIMA, se recomienda usar la Leyenda de minería de datos del Visor de series temporales de Microsoft, que presenta el orden de regresión automática, las medias móviles y otros elementos de la ecuación ya creada en un formato coherente.
En esta sección se presenta una ecuación de ejemplo y se explican las condiciones básicas.
Leyenda de minería de datos para la fórmula ARIMA
En el ejemplo siguiente se muestra la fórmula ARIMA para una parte del modelo, según se muestra en la Leyenda de minería de datos. Para ver esta fórmula, abra el modelo Forecasting utilizando el Visor de series temporales de Microsoft, haga clic en la ficha Modelo, seleccione el árbol de la serie de datos R250: Europe y, a continuación, haga clic en el nodo que representa la serie de datos del 5 de julio de 2003 o posterior. La leyenda de minería de datos crea todas las constantes en un formato legible, que se muestra en este ejemplo:
Ecuación ARIMA:
ARIMA ({1,1},0,{1,1.49791920964142,1.10640053499397,0.888873034670339,-5.05429403071953E-02,-0.905265316720334,-0.961908900643379,-0.649991020901922}) Intercept:56.8888888888889
Esta ecuación es el formato de ARIMA largo, que incluye los valores de los coeficientes y la intersección. El formato corto para esta ecuación sería {1,0,7}, donde 1 indica el período como recuento de intervalos de tiempo, 0 indica el orden de diferencia de término y 7 indica el número de coeficientes.
Nota
Analysis Services calcula una constante para calcular la varianza, pero la propia constante no se muestra en ninguna parte de la interfaz de usuario. Sin embargo, puede ver la varianza para cualquier punto de la serie como una función de esta constante si selecciona Mostrar desviaciones en la vista Gráfico. La información sobre herramientas para cada serie de datos muestra la varianza para un punto previsto concreto.
Contenido del modelo para la fórmula ARIMA
Un modelo ARIMA sigue una estructura estándar con información diferente contenida en nodos de distintos tipos. Para ver el contenido del modelo ARIMA, cambie el visor al Visor de árbol de contenido genérico de Microsoft y, a continuación, expanda el nodo que tiene el nombre de atributo R250 Europe: Quantity.
Un modelo ARIMA para una serie de datos contiene la ecuación periódica básica en cuatro formatos diferentes, que se pueden elegir en función de la aplicación.
NODE_CAPTION: muestra el formato corto de la ecuación. El formato corto indica cuántas estructuras periódicas se representan y cuántos coeficientes tienen. Por ejemplo, si el formato corto de la ecuación es {4,0,6}, el nodo representa una estructura periódica con seis coeficientes. Si el formato corto es similar a {2,0,8} x {1,0,0}(4), el nodo contiene dos estructuras periódicas.
NODE DESCRIPTION: muestra el formato largo de la ecuación, que también es el que aparece en la Leyenda de minería de datos. El formato largo de la ecuación es similar al corto, excepto en que los valores reales de los coeficientes se muestran en lugar de contarse.
NODE_RULE: muestra una representación XML de la ecuación. Según el tipo de nodo, la representación XML puede incluir una o varias estructuras periódicas. En la tabla siguiente se muestra cómo se presentan los nodos XML hasta niveles superiores del modelo ARIMA.
Tipo de nodo |
Contenido XML |
---|---|
27 (raíz ARIMA) |
Incluye todas las estructuras periódicas de la serie de datos y el contenido de todos los nodos secundarios de cada estructura periódica. |
28 (estructura periódica ARIMA) |
Define una estructura periódica única, incluido su nodo de término de regresión automática y sus coeficientes de media móvil. |
29 (regresión automática ARIMA) |
Enumera los términos para una estructura periódica única. |
30 (media móvil ARIMA) |
Enumera los coeficientes para una estructura periódica única. |
NODE_DISTRIBUTION: muestra los términos de la ecuación en una tabla anidada, que se puede consultar para obtener términos concretos. La tabla de distribución de nodos sigue la misma estructura jerárquica que las reglas de XML. Es decir, el nodo raíz de la serie ARIMA (NODE_TYPE = 27) contiene el valor de intersección y las periodicidades para la ecuación completa, que puede incluir varias periodicidades, mientras que los nodos secundarios contienen sólo información concreta de una cierta estructura periódica o de los nodos secundarios de esa estructura periódica.
Tipo de nodo |
Atributo |
Tipo de valor |
---|---|---|
27 (raíz ARIMA) |
Interceptar Periodicidad |
11 |
28 (estructura periódica ARIMA) |
Periodicidad Orden de regresión automática Orden de diferencia Orden de media móvil |
12 13 15 14 |
29 (regresión automática ARIMA) |
Coeficiente (complemento de coeficiente) |
7 |
30 (media móvil ARIMA) |
Valor en t Valor en t-1 … Valor en t-n |
7 |
El valor de orden de media móvil indica el número de medias móviles en una serie. Generalmente, la media móvil se calcula n-1 veces si hay n términos en una serie, pero el número se puede reducir para facilitar el cálculo.
El valor de orden de regresión automática indica el número de series de regresión automática.
El valor de orden de diferencia indica cuántas veces se comparan las series, o se diferencian.
Para obtener una enumeración de los tipos de valores posibles, vea MiningValueType.
Usar la información del árbol ARIMA
Si utiliza predicciones basadas en el algoritmo ARIMA en una solución empresarial, puede ser aconsejable pegar la ecuación en un informe con el fin de mostrar el método que se usó para crear la predicción. Puede utilizar el título o la descripción para presentar las fórmulas en formato corto o largo, respectivamente.
Si está desarrollando una aplicación que utiliza predicciones de series temporales, podría ser útil obtener la ecuación ARIMA del contenido del modelo y, a continuación, realizar las predicciones propias. Para obtener la ecuación ARIMA de una salida determinada, puede consultar directamente la raíz ARIMA de ese atributo en particular, como se muestra en los ejemplos anteriores.
Si conoce el identificador del nodo que contiene la serie que desea, tiene dos opciones para recuperar los componentes de la ecuación:
Formato de tabla anidada: use una consulta DMX o consulte mediante el cliente OLEDB.
Representación XML: use una consulta XML.
Comentarios
Puede ser difícil recuperar la información de un árbol ARTxp, porque la información de cada división está en un lugar diferente dentro del árbol. Por consiguiente, con un modelo ARTxp, debe obtener todas las partes y, a continuación, llevar a cabo cierto procesamiento que reconstituya la fórmula completa. Recuperar una ecuación de un modelo ARIMA es más fácil porque la fórmula está disponible en todo el árbol. Para obtener más información sobre cómo crear una consulta para recuperar esta información, vea Consultar un modelo de serie temporal (Analysis Services: minería de datos).