Condividi tramite


ForecastingSettings Classe

Impostazioni di previsione per un processo AutoML.

Ereditarietà
azure.ai.ml.entities._mixins.RestTranslatableMixin
ForecastingSettings

Costruttore

ForecastingSettings(*, country_or_region_for_holidays: str | None = None, cv_step_size: int | None = None, forecast_horizon: str | int | None = None, target_lags: str | int | List[int] | None = None, target_rolling_window_size: str | int | None = None, frequency: str | None = None, feature_lags: str | None = None, seasonality: str | int | None = None, use_stl: str | None = None, short_series_handling_config: str | None = None, target_aggregate_function: str | None = None, time_column_name: str | None = None, time_series_id_column_names: str | List[str] | None = None, features_unknown_at_forecast_time: str | List[str] | None = None)

Parametri

Nome Descrizione
country_or_region_for_holidays
Necessario

Paese/area geografica utilizzata per generare le funzionalità delle festività. Devono essere codice paese/area geografica ISO 3166 a due lettere, ad esempio "US" o "GB".

cv_step_size
Necessario

Numero di periodi tra il origin_time di una piega cv e la piega successiva. Ad esempio, se n_step = 3 per i dati giornalieri, l'ora di origine per ogni piega sarà di tre giorni.

forecast_horizon
Necessario

Orizzonte di previsione massimo desiderato in unità di frequenza delle serie temporali. Il valore predefinito è 1.

Le unità sono basate sull'intervallo di tempo dei dati di training, ad esempio mensile, settimanale che il forecaster deve prevedere. Quando si prevede il tipo di attività, questo parametro è obbligatorio. Per altre informazioni sull'impostazione dei parametri di previsione, vedere Eseguire il training automatico di un modello di previsione delle serie temporali.

target_lags
Necessario

Numero di periodi precedenti di ritardo dalla colonna di destinazione. Per impostazione predefinita, i ritardi sono disattivati.

Durante la previsione, questo parametro rappresenta il numero di righe per il ritardo dei valori di destinazione in base alla frequenza dei dati. Questo valore è rappresentato come un elenco o un singolo numero intero. Il ritardo deve essere usato quando la relazione tra le variabili indipendenti e la variabile dipendente non corrispondono o correlate per impostazione predefinita. Ad esempio, quando si tenta di prevedere la richiesta di un prodotto, la richiesta per un mese specifico può dipendere dal prezzo di determinati prodotti nei tre mesi precedenti. In questo esempio, è possibile che si voglia ritardare la destinazione (richiesta) negativamente di tre mesi, in modo che il modello sia in grado di eseguire il training sulla relazione corretta. Per altre informazioni, vedere Eseguire il training automatico di un modello di previsione delle serie temporali.

Si noti il rilevamento automatico dei lag di destinazione e delle dimensioni della finestra in sequenza. Vedere i commenti corrispondenti nella sezione della finestra in sequenza. Viene usato l'algoritmo successivo per rilevare la dimensione ottimale del ritardo di destinazione e della finestra mobile.

  1. Stimare l'ordine massimo di ritardo per la selezione della funzionalità di ricerca. In questo caso è il numero di periodi fino alla granularità della frequenza di data successiva, ad esempio se la frequenza è giornaliera, sarà una settimana (7), se è una settimana, sarà mensile (4). I valori moltiplicati per due sono i valori più grandi possibili di lag/finestre in sequenza. Negli esempi si considererà rispettivamente l'ordine massimo di ritardo di 14 e 8.

  2. Creare una serie de-stagionalizzata aggiungendo componenti di tendenza e residui. Verrà usato nel passaggio successivo.

  3. Stimare la funzione PACF - Correlazione automatica parziale sui dati da (2) e cercare punti, in cui la correlazione automatica è significativa, ovvero il valore assoluto è superiore a 1,96/square_root(valore di ritardo massimo), che corrisponde al significato del 95%.

  4. Se tutti i punti sono significativi, riteniamo che sia forte stagionalità e non crei caratteristiche di lookback.

  5. I valori PACF vengono a partire dall'inizio e il valore prima che la prima correlazione automatica insignificante designi il ritardo. Se il primo elemento significativo (valore correlato con se stesso) è seguito da insignificante, il ritardo sarà 0 e non useremo le funzionalità di lookback.

target_rolling_window_size
Necessario

Numero di periodi passati usati per creare una media della finestra mobile della colonna di destinazione.

Durante la previsione, questo parametro rappresenta n periodi cronologici da usare per generare valori previsti, <= dimensioni del set di training. Se omesso, n è la dimensione massima del set di training. Specificare questo parametro quando si vuole considerare solo una certa quantità di dati cronologici durante il training del modello. Se impostato su "auto", la finestra in sequenza verrà stimata come ultimo valore in cui il PACF è maggiore della soglia di significatività. Per informazioni dettagliate, vedere la sezione target_lags.

frequency
Necessario

Frequenza di previsione.

Durante la previsione, questo parametro rappresenta il periodo con cui si desidera la previsione, ad esempio giornaliera, settimanale, annuale e così via. La frequenza di previsione è la frequenza del set di dati per impostazione predefinita. Facoltativamente, è possibile impostarlo su maggiore (ma non minore) rispetto alla frequenza del set di dati. I dati verranno aggregati e generati in base alla frequenza di previsione. Ad esempio, per i dati giornalieri, è possibile impostare la frequenza su giornaliera, settimanale o mensile, ma non su base oraria. La frequenza deve essere un alias di offset pandas. Per altre informazioni, vedere la documentazione di Pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

feature_lags
Necessario

Flag per la generazione di ritardi per le funzionalità numeriche con 'auto' o Nessuna.

seasonality
Necessario

Impostare la stagionalità delle serie temporali come numero intero multiplo della frequenza della serie. Se la stagionalità è impostata su "auto", verrà dedotta. Se è impostata su Nessuno, si presuppone che la serie temporale non sia stagionale equivalente a stagionalità=1.

use_stl
Necessario

Configurare la scomposizione STL della colonna di destinazione della serie temporale. use_stl può accettare tre valori: Nessuno (impostazione predefinita) - nessuna stl decomposition, 'season' - genera solo componente stagione e season_trend - genera componenti di stagione e di tendenza.

short_series_handling_config
Necessario

Parametro che definisce la modalità di gestione di serie temporali brevi da parte di AutoML.

Valori possibili: 'auto' (impostazione predefinita), 'pad', 'drop' e None.

  • se non sono presenti serie lunghe, le serie brevi verranno riempite. In caso contrario, le serie brevi verranno eliminate.
  • pad tutte le serie brevi saranno riempite.
  • drop all the short series will be dropped".
  • Nessuna serie breve non verrà modificata. Se impostato su "pad", la tabella verrà riempita con gli zeri e i valori vuoti per i regreditori e i valori casuali per la destinazione con la media media di valore di destinazione per un id serie temporale specificato. Se la median è maggiore o uguale a zero, il valore riempimento minimo verrà ritagliato per zero. Input:

Data

numeric_value

string

target

2020-01-01

23

green

55

L'output presupponendo che il numero minimo di valori sia quattro:

Data

numeric_value

string

target

2019-12-29

0

ND

55.1

2019-12-30

0

ND

55.6

2019-12-31

0

ND

54.5

2020-01-01

23

green

55

Nota: Sono disponibili due parametri short_series_handling_configuration e short_series_handling legacy. Quando vengono impostati entrambi i parametri, vengono sincronizzati come illustrato nella tabella seguente (short_series_handling_configuration e short_series_handling per brevità vengono contrassegnati rispettivamente come handling_configuration e gestione).

gestione

gestione della configurazione

gestione risultante

gestione risultanteconfigurazione

Vero

auto

Vero

auto

Vero

pad

Vero

auto

Vero

drop

Vero

auto

Vero

Nessuno

Falso

Nessuno

Falso

auto

Falso

Nessuno

Falso

pad

Falso

Nessuno

Falso

drop

Falso

Nessuno

Falso

Nessuno

Falso

Nessuno

target_aggregate_function
Necessario
str

Funzione da utilizzare per aggregare la colonna di destinazione della serie temporale in modo che sia conforme a una frequenza specificata dall'utente. Se la target_aggregation_function è impostata, ma il parametro freq non è impostato, viene generato l'errore. Le possibili funzioni di aggregazione di destinazione sono: "sum", "max", "min" e "mean".

  • I valori di colonna di destinazione vengono aggregati in base all'operazione specificata. In genere, la somma è appropriata per la maggior parte degli scenari.

  • Le colonne di stima numerica nei dati vengono aggregate in base alla somma, alla media, al valore minimo e al valore massimo. Di conseguenza, ml automatizzato genera nuove colonne suffisso con il nome della funzione di aggregazione e applica l'operazione di aggregazione selezionata.

  • Per le colonne di stima categorica, i dati vengono aggregati in modalità, la categoria più importante nella finestra.

  • Le colonne di stima della data vengono aggregate in base al valore minimo, al valore massimo e alla modalità.

Freq

target_aggregation_function

Meccanismo di regolarità dei dati

Nessuno (Predefinito)

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se la validfrequency non può essere interrotta, verrà generato l'errore.

Alcuni valori

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se i punti dati numberof conformi alle griglia di frequenza specificata sono inferiori al 90% questi punti verranno rimossi, altrimenti verrà generato l'errore.

Nessuno (Predefinito)

Funzione di aggregazione

Errore relativo ai parametri difrequency mancanti generati.

Alcuni valori

Funzione di aggregazione

Aggregare alla frequenza usando la funzione di aggregazioneprovided.

time_column_name
Necessario

Nome della colonna temporale. Questo parametro è necessario quando si prevede di specificare la colonna datetime nei dati di input usati per la compilazione della serie temporale e l'inferenza della frequenza.

time_series_id_column_names
Necessario

Nomi di colonne usate per raggruppare un timeeries. Può essere usato per creare più serie. Se i nomi delle colonne id serie temporale non sono definiti o le colonne di identificatore specificate non identificano tutte le serie nel set di dati, gli identificatori della serie temporale verranno creati automaticamente per il set di dati.

features_unknown_at_forecast_time
Necessario

Colonne di funzionalità disponibili per il training ma sconosciute al momento della previsione/inferenza. Se features_unknown_at_forecast_time è impostato su un elenco vuoto, si presuppone che tutte le colonne di funzionalità del set di dati siano note in fase di inferenza. Se questo parametro non è impostato il supporto per le funzionalità future non è abilitato.

Parametri solo parole chiave

Nome Descrizione
country_or_region_for_holidays
Necessario
cv_step_size
Necessario
forecast_horizon
Necessario
target_lags
Necessario
target_rolling_window_size
Necessario
frequency
Necessario
feature_lags
Necessario
seasonality
Necessario
use_stl
Necessario
short_series_handling_config
Necessario
target_aggregate_function
Necessario
time_column_name
Necessario
time_series_id_column_names
Necessario
features_unknown_at_forecast_time
Necessario