Características de retardo para predecir series temporales en AutoML
En este artículo se describe cómo el aprendizaje automático automatizado (AutoML) en Azure Machine Learning crea características de retardo y una agregación gradual de ventanas para ayudarle a predecir los modelos de regresión de serie temporal. Las características de AutoML usan datos históricos del modelo que pueden aumentar significativamente la precisión del modelo al ayudar al modelo a aprender patrones correlacionales en el tiempo.
Si está interesado en obtener más información sobre la metodología de previsión en AutoML, consulte Introducción a los métodos de previsión en AutoML. Para explorar ejemplos de entrenamiento para los modelos de previsión en AutoML, consulte Configuración de AutoML para entrenar un modelo de previsión de serie temporal con el SDK y la CLI.
Caracterización de retardo en AutoML
AutoML genera características de retardo que corresponden al horizonte de previsión. En esta sección se explora la caracterización de retardo en AutoML para un modelo con un horizonte de previsión de tres y un orden de retardo de destino de uno. En las tablas siguientes se presentan los datos del modelo y las características de retardo para una serie temporal mensual.
Tabla 1: Serie temporal original
Date | $y_t$ |
---|---|
1/1/2001 | 0 |
1/2/2001 | 10 |
1/3/2001 | 20 |
1/4/2001 | 30 |
1/5/2001 | 40 |
1/6/2001 | 50 |
El primer paso genera la característica de retardo solo para el horizonte $h=1$. En las tablas posteriores se muestra por qué el proceso usa horizontes individuales para completar la caracterización del retardo.
Tabla 2: Caracterización de retardo para el horizonte $h=1$
Date | $y_t$ | Origen | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/12/2000 | - | 1 |
1/2/2001 | 10 | 1/1/2001 | 0 | 1 |
1/3/2001 | 20 | 1/2/2001 | 10 | 1 |
1/4/2001 | 30 | 1/3/2001 | 20 | 1 |
1/5/2001 | 40 | 1/4/2001 | 30 | 1 |
1/6/2001 | 50 | 1/5/2001 | 40 | 1 |
AutoML genera los datos de la tabla 2 a partir de los datos de la tabla 1 cambiando la columna $y_t$ hacia abajo por una sola observación. Las tablas 2 a 5 incluyen la columna Origen para mostrar las fechas desde las que se originan las características de retardo.
El siguiente paso genera la característica de retardo solo para el horizonte de previsión $h=2$.
Tabla 3: Caracterización de retardo para el horizonte de previsión $h=2$
Date | $y_t$ | Origen | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/11/2000 | - | 2 |
1/2/2001 | 10 | 1/12/2000 | - | 2 |
1/3/2001 | 20 | 1/1/2001 | 0 | 2 |
1/4/2001 | 30 | 1/2/2001 | 10 | 2 |
1/5/2001 | 40 | 1/3/2001 | 20 | 2 |
1/6/2001 | 50 | 1/4/2001 | 30 | 2 |
AutoML genera los datos de la tabla 3 a partir de los datos de la tabla 1 cambiando la columna $y_t$ hacia abajo por dos observaciones.
El siguiente paso genera la característica de retardo solo para el horizonte de previsión $h=3$.
Tabla 4: Caracterización de retardos para el horizonte de previsión $h=3$
Date | $y_t$ | Origen | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/10/2000 | - | 3 |
1/2/2001 | 10 | 1/11/2000 | - | 3 |
1/3/2001 | 20 | 1/12/2000 | - | 3 |
1/4/2001 | 30 | 1/1/2001 | 0 | 3 |
1/5/2001 | 40 | 1/2/2001 | 10 | 3 |
1/6/2001 | 50 | 1/3/2001 | 20 | 3 |
El paso final concatena los datos de las tablas 1, 2 y 3 y reorganiza las filas.
Tabla 5: Caracterización de retardo completa
Date | $y_t$ | Origen | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/12/2000 | - | 1 |
1/1/2001 | 0 | 1/11/2000 | - | 2 |
1/1/2001 | 0 | 1/10/2000 | - | 3 |
1/2/2001 | 10 | 1/1/2001 | 0 | 1 |
1/2/2001 | 10 | 1/12/2000 | - | 2 |
1/2/2001 | 10 | 1/11/2000 | - | 3 |
1/3/2001 | 20 | 1/2/2001 | 10 | 1 |
1/3/2001 | 20 | 1/1/2001 | 0 | 2 |
1/3/2001 | 20 | 1/12/2000 | - | 3 |
1/4/2001 | 30 | 1/3/2001 | 20 | 1 |
1/4/2001 | 30 | 1/2/2001 | 10 | 2 |
1/4/2001 | 30 | 1/1/2001 | 0 | 3 |
1/5/2001 | 40 | 1/4/2001 | 30 | 1 |
1/5/2001 | 40 | 1/3/2001 | 20 | 2 |
1/5/2001 | 40 | 1/2/2001 | 10 | 3 |
1/6/2001 | 50 | 1/4/2001 | 40 | 1 |
1/6/2001 | 50 | 1/4/2001 | 30 | 2 |
1/6/2001 | 50 | 1/3/2001 | 20 | 3 |
En la tabla 5, se cambia el nombre de la columna de retardo a $y_{t-1}^{(h)}$ para reflejar que el retardo se genera con respecto a un horizonte específico. En la tabla 5 se muestra cómo se pueden asignar los retardos generados con respecto al horizonte a las formas convencionales de generar retardos en las tablas anteriores.
La tabla 5 es un ejemplo del aumento de datos que AutoML aplica a los datos de entrenamiento para habilitar la previsión directa de los modelos de regresión. Cuando la configuración incluye características de retardo, AutoML crea retardos dependientes del horizonte junto con una característica de horizonte con valores enteros. Los modelos de regresión de previsión de AutoML pueden realizar una predicción en el horizonte $h$ sin tener en cuenta la predicción en $h-1$, a diferencia de los modelos definidos recursivamente como ARIMA.
Consideraciones para la caracterización de retardo
Hay algunas consideraciones relacionadas con la caracterización de retardo para un modelo. Revise las secciones siguientes para identificar posibles acciones para su escenario.
Crecimiento del tamaño del conjunto de datos
Cuando AutoML genera características de retardo dependientes del horizonte, agrega nuevas filas al conjunto de datos del modelo. El número de filas nuevas es proporcional al horizonte de previsión.
El crecimiento del tamaño del conjunto de datos puede provocar errores de memoria insuficiente en nodos de proceso más pequeños o cuando el tamaño del conjunto de datos ya es grande. Puede encontrar soluciones para solucionar este problema en las Preguntas más frecuentes (P+F) para la previsión de AutoML.
Desacoplar orden de retardo y del horizonte de previsión
La estrategia de retardo de AutoML desacopla el orden de retardo y el horizonte de previsión. Supongamos que el horizonte de previsión es siete y desea que AutoML use características de retardo. En este escenario, no es necesario establecer el orden de retardo en siete para garantizar la predicción en un horizonte de previsión completo. Dado que AutoML genera retardos con respecto al horizonte, puede establecer el orden de retardo en uno. AutoML aumenta los datos, por lo que los retardos de cualquier orden son válidos hasta el horizonte de previsión.