Condividi tramite


Funzionalità di ritardo per la previsione delle serie temporali in AutoML

Questo articolo descrive il modo in cui Machine Learning automatizzato (AutoML) in Azure Machine Learning crea funzionalità di aggregazione ritardo e finestra mobile per semplificare la previsione dei modelli di regressione delle serie temporali. Le funzionalità autoML usano dati cronologici del modello che possono aumentare significativamente l'accuratezza del modello consentendo al modello di apprendere modelli di correlazione nel tempo.

Per altre informazioni sulla metodologia di previsione in AutoML, vedere Panoramica dei metodi di previsione in AutoML. Per esplorare gli esempi di training per la previsione dei modelli in AutoML, vedere Configurare AutoML per eseguire il training di un modello di previsione di serie temporali con l'SDK e l'interfaccia della riga di comando.

Definizione delle funzionalità di ritardo in AutoML

AutoML genera funzionalità di ritardo che corrispondono all'orizzonte di previsione. Questa sezione illustra la definizione delle caratteristiche di ritardo in AutoML per un modello con un orizzonte di previsione di tre e un intervallo di ritardo di destinazione pari a uno. Le tabelle seguenti presentano i dati del modello e le funzionalità di ritardo per una serie temporale mensile.

Tabella 1: Serie temporale originale

Data $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

Il primo passaggio genera la funzionalità di ritardo solo per l'orizzonte $h=1$. Le tabelle successive illustrano il motivo per cui il processo usa singoli orizzonti per completare la definizione delle caratteristiche di ritardo.

Tabella 2: Definizione delle caratteristiche di ritardo per l'orizzonte $h=1$

Data $y_t$ Origine $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

AutoML genera i dati nella tabella 2 dai dati nella tabella 1 spostando la colonna $y_t$ verso il basso di una singola osservazione. Le tabelle da 2 a 5 includono la colonna Origin per visualizzare le date da cui hanno origine le funzionalità di ritardo.

Il passaggio successivo genera la funzionalità di ritardo solo per l'orizzonte di previsione $h=2$.

Tabella 3: Definizione delle caratteristiche di ritardo per l'orizzonte di previsione $h=2$

Data $y_t$ Origine $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

AutoML genera i dati nella tabella 3 dai dati nella tabella 1 spostando la colonna $y_t$ verso il basso di due osservazioni.

Il passaggio successivo genera la funzionalità di ritardo solo per l'orizzonte di previsione $h=3$.

Tabella 4: Definizione delle caratteristiche di ritardo per l'orizzonte di previsione $h=3$

Data $y_t$ Origine $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

Il passaggio finale concatena i dati nelle tabelle 1, 2 e 3 e riorganizzerà le righe.

Tabella 5: Lag featurization complete

Data $y_t$ Origine $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

Nella tabella 5 la colonna ritardo viene rinominata in $y_{t-1}^{(h)}$ per riflettere che il ritardo viene generato rispetto a un orizzonte specifico. La tabella 5 mostra come i ritardi generati rispetto all'orizzonte possono essere mappati ai modi convenzionali di generare ritardi nelle tabelle precedenti.

La tabella 5 è un esempio dell'aumento dei dati applicato da AutoML ai dati di training per abilitare la previsione diretta dai modelli di regressione. Quando la configurazione include funzionalità di ritardo, AutoML crea ritardi dipendenti dall'orizzonte insieme a una funzionalità orizzonte con valori interi. I modelli di regressione di previsione autoML possono eseguire una stima all'orizzonte $h$ senza considerare la stima a $h-1$, a differenza dei modelli definiti in modo ricorsivo come ARIMA.

Considerazioni sulla definizione delle funzionalità di ritardo

Esistono alcune considerazioni relative alla definizione delle caratteristiche di ritardo per un modello. Esaminare le sezioni seguenti per identificare le potenziali azioni per lo scenario.

Crescita delle dimensioni del set di dati

Quando AutoML genera funzionalità di ritardo dipendenti dall'orizzonte, aggiunge nuove righe al set di dati del modello. Il numero di nuove righe è proporzionale all'orizzonte di previsione.

La crescita delle dimensioni del set di dati può causare errori di memoria insufficiente su nodi di calcolo più piccoli o quando le dimensioni del set di dati sono già grandi. È possibile trovare soluzioni per risolvere questo problema nelle domande frequenti per la previsione di AutoML.

Disaccoppiamento dell'ordine di ritardo e dell'orizzonte di previsione

La strategia di ritardo autoML separa l'ordine di ritardo e l'orizzonte di previsione. Si supponga che l'orizzonte di previsione sia sette e che AutoML usi le funzionalità di ritardo. In questo scenario non è necessario impostare l'ordine di ritardo su sette per garantire la stima su un orizzonte di previsione completo. Poiché AutoML genera ritardi rispetto all'orizzonte, è possibile impostare l'ordine di ritardo su uno. AutoML aumenta i dati in modo che i ritardi di qualsiasi ordine siano validi fino all'orizzonte di previsione.