Fonctionnalités de décalage pour la prévision de séries chronologiques dans AutoML
Cet article explique comment le Machine Learning automatisé (AutoML) dans Azure Machine Learning crée des fonctionnalités d’agrégation de décalage et de fenêtres dynamiques pour vous aider à prévoir des modèles de régression de série chronologique. Les fonctionnalités AutoML utilisent des données de modèle historique qui peuvent augmenter considérablement la précision du modèle en l’aidant à apprendre des modèles de corrélation dans le temps.
Si vous souhaitez en savoir plus sur la méthodologie de prévision dans AutoML, consultez Vue d’ensemble des méthodes de prévision dans AutoML. Pour découvrir des exemples de formation aux modèles de prévision dans AutoML, voir Configurer AutoML pour former un modèle de prévision de série chronologique avec un kit de développement logiciel (SDK) et une interface de ligne de commande.
Caractérisation de décalage dans AutoML
AutoML génère des fonctionnalités de décalage qui correspondent à l’horizon de prévision. Cette section explore la caractérisation des décalages dans AutoML pour un modèle où l’horizon de prévision est de trois et l’ordre de décalage cible d’un. Les tableaux suivants présentent les données de modèle et les fonctionnalités de décalage pour une série chronologique mensuelle.
Tableau 1 : série chronologique d’origine
Date | $y_t$ |
---|---|
1/1/2001 | 0 |
1/2/2001 | 10 |
1/3/2001 | 20 |
1/4/2001 | 30 |
1/5/2001 | 40 |
1/6/2001 | 50 |
La première étape génère la fonctionnalité de décalage pour l’horizon $h=1$ uniquement. Les tableaux suivants montrent pourquoi le processus utilise des horizons individuels pour terminer la caractérisation du décalage.
Tableau 2 : caractérisation du décalage pour $h=1$
Date | $y_t$ | Origine | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/12/2000 | - | 1 |
1/2/2001 | 10 | 1/1/2001 | 0 | 1 |
1/3/2001 | 20 | 1/2/2001 | 10 | 1 |
1/4/2001 | 30 | 1/3/2001 | 20 | 1 |
1/5/2001 | 40 | 1/4/2001 | 30 | 1 |
1/6/2001 | 50 | 1/5/2001 | 40 | 1 |
AutoML génère les données du tableau 2 à partir des données du tableau 1 en déplaçant la colonne $y_t$ vers le bas par une seule observation. Les tableaux 2 à 5 incluent la colonne Origine pour afficher les dates desquelles les caractéristiques de décalage proviennent.
L’étape suivante génère la fonctionnalité de décalage pour l’horizon de prévision $h=2$ uniquement.
Tableau 3: Caractérisation du décalage pour l’horizon de prévision $h=2$
Date | $y_t$ | Origine | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/11/2000 | - | 2 |
1/2/2001 | 10 | 1/12/2000 | - | 2 |
1/3/2001 | 20 | 1/1/2001 | 0 | 2 |
1/4/2001 | 30 | 1/2/2001 | 10 | 2 |
1/5/2001 | 40 | 1/3/2001 | 20 | 2 |
1/6/2001 | 50 | 1/4/2001 | 30 | 2 |
AutoML génère les données du tableau 3 à partir des données du tableau 1 en déplaçant la colonne $y_t$ vers le bas par deux observations.
L’étape suivante génère la fonctionnalité de décalage pour l’horizon de prévision $h=3$ uniquement.
Tableau 4: Caractérisation du décalage pour l’horizon de prévision $h=3$
Date | $y_t$ | Origine | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/10/2000 | - | 3 |
1/2/2001 | 10 | 1/11/2000 | - | 3 |
1/3/2001 | 20 | 1/12/2000 | - | 3 |
1/4/2001 | 30 | 1/1/2001 | 0 | 3 |
1/5/2001 | 40 | 1/2/2001 | 10 | 3 |
1/6/2001 | 50 | 1/3/2001 | 20 | 3 |
La dernière étape concatène les données des tableaux 1, 2 et 3, et réorganise les lignes.
Tableau 5 : caractérisation du décalage terminée
Date | $y_t$ | Origine | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 1/12/2000 | - | 1 |
1/1/2001 | 0 | 1/11/2000 | - | 2 |
1/1/2001 | 0 | 1/10/2000 | - | 3 |
1/2/2001 | 10 | 1/1/2001 | 0 | 1 |
1/2/2001 | 10 | 1/12/2000 | - | 2 |
1/2/2001 | 10 | 1/11/2000 | - | 3 |
1/3/2001 | 20 | 1/2/2001 | 10 | 1 |
1/3/2001 | 20 | 1/1/2001 | 0 | 2 |
1/3/2001 | 20 | 1/12/2000 | - | 3 |
1/4/2001 | 30 | 1/3/2001 | 20 | 1 |
1/4/2001 | 30 | 1/2/2001 | 10 | 2 |
1/4/2001 | 30 | 1/1/2001 | 0 | 3 |
1/5/2001 | 40 | 1/4/2001 | 30 | 1 |
1/5/2001 | 40 | 1/3/2001 | 20 | 2 |
1/5/2001 | 40 | 1/2/2001 | 10 | 3 |
1/6/2001 | 50 | 1/4/2001 | 40 | 1 |
1/6/2001 | 50 | 1/4/2001 | 30 | 2 |
1/6/2001 | 50 | 1/3/2001 | 20 | 3 |
Dans le tableau 5, la colonne de décalage est renommée $y_{t-1}^{(h)}$ pour refléter que le décalage est généré par rapport à un horizon spécifique. Le tableau 5 montre que les décalages générés par rapport à l’horizon peuvent être mappés aux méthodes conventionnelles de génération de décalages des tableaux précédents.
La table 5 est un exemple d’augmentation des données qu’AutoML applique aux données d’entraînement pour permettre la prévision directe à partir de modèles de régression. Lorsque la configuration inclut des fonctionnalités de décalage, AutoML crée des décalages dépendants de l’horizon avec une fonctionnalité d’horizon à nombres entiers. Cela permet aux modèles de régression de prévision d’AutoML d’effectuer une prévision à l’horizon $h$ sans tenir compte de la prévision de $h-1$, contrairement aux modèles définis de manière récursive tels que ARIMA.
Considérations relatives à la caractérisation du décalage
Quelques considérations relatives à la caractérisation du décalage d’un modèle doivent être respectées. Passez en revue les sections suivantes pour identifier les actions potentielles pour votre scénario.
Croissance de la taille du jeu de données
Lorsque AutoML génère des fonctionnalités de décalage dépendantes de l’horizon, de nouvelles lignes sont ajoutées au jeu de données du modèle. Le nombre de nouvelles lignes est proportionnel à l’horizon de prévision.
Cette croissance de la taille du jeu de données peut entraîner des erreurs de mémoire insuffisante sur des nœuds de calcul plus petits ou lorsque la taille du jeu de données est déjà volumineuse. Vous trouverez des solutions pour résoudre ce problème dans le Forum aux questions (FAQ) concernant la prévision AutoML.
Dissociation de l’ordre de décalage et de l’horizon de prévision
La stratégie de décalage AutoML dissocie l’ordre de décalage et l’horizon de prévision. Supposons que votre horizon de prévision soit sept et que vous souhaitez que AutoML utilise des fonctionnalités de décalage. Dans ce scénario, vous n’avez pas besoin de définir l’ordre de décalage sur sept pour garantir la prévision sur un horizon de prévision complet. Étant donné qu’AutoML génère des décalages par rapport à l’horizon, vous pouvez définir l’ordre de décalage sur un. AutoML augmente la quantité de données afin que les décalages de n’importe quel ordre soient valides jusqu’à l’horizon de prévision.