Confronto delle stime per i modelli di previsione (Esercitazione intermedia sul data mining)
Si applica a: SQL Server 2016 Preview
Nei passaggi precedenti di questa esercitazione sono stati creati più modelli Time Series:
Stime per ogni combinazione di area e modello, basate solo sui dati per il singolo modello e l'area.
Stime per ogni area, basate sui dati aggiornati.
Stime per tutti i modelli su scala mondiale, basate sui dati aggregati.
Stime per il modello M200 nell'area dell'America del nord, basate sul modello aggregato.
Per riepilogare le funzionalità per le stime basate su serie temporali, si rivedranno le modifiche per verificare in che modo l'utilizzo delle opzioni per estendere o sostituire dati hanno influito sui risultati della previsione.
EXTEND_MODEL_CASES
REPLACE_MODEL_CASES
Confronto di risultati originali con risultati successivi all'aggiunta di dati
Si osserveranno i dati solo per la linea del prodotto M200 nell'area del Pacifico, per vedere in che modo l'aggiornamento del modello con i nuovi dati influisce sui risultati. Si tenga presente che le serie dei dati originali terminano a giugno 2004 e sono stati ottenuti nuovi dati per i mesi di luglio, agosto e settembre.
Nella prima colonna sono riportati i nuovi dati aggiunti.
Nella seconda colonna è riportata la previsione per luglio e i mesi successivi in base alla serie di dati originali.
Nella terza colonna è riportata la previsione basata sui dati estesi.
M200 Pacific | Dati di vendita reali aggiornati | Previsione prima dell'aggiunta di dati | Stima estesa |
---|---|---|---|
7-25-2008 | 65 | 32 | 65 |
8-25-2008 | 54 | 37 | 54 |
9-25-2008 | 61 | 32 | 61 |
10-25-2008 | Nessun dato | 36 | 32 |
11-25-2008 | Nessun dato | 31 | 41 |
12-25-2008 | Nessun dato | 34 | 32 |
Si noterà che le previsioni che utilizzando i dati estesi, visualizzati in grassetto, ripetono esattamente i punti dati reali. La ripetizione avviene per motivi strutturali. Finché sono presenti punti dati reali da utilizzare, la query di stima restituirà i valori effettivi e genererà nuovi valori di stima solo dopo avere utilizzato i nuovi punti dati effettivi.
In generale l'algoritmo pondera le modifiche nei nuovi dati in modo più attendibile rispetto ai dati dall'inizio dei dati del modello. In questo caso, tuttavia, le nuove cifre di vendita rappresentano un aumento solo del 20-30% rispetto al periodo precedente, pertanto l'impatto sulle vendite stimate risulta minimo, dopo di che le proiezioni di vendita diminuiscono di nuovo, maggiormente in linea con la tendenza nei mesi prima dei nuovi dati.
Confronto tra i risultati della stima incrociata e originali
Si tenga presente che il modello di data mining originale ha rivelato notevoli differenze tra le aree e tra le linee di prodotti. Ad esempio, le vendite per il modello M200 sono state particolarmente elevate, mentre quelle per il modello T1000 sono state piuttosto basse in tutte le aree. Alcune serie, inoltre, non disponevano di molti dati. Le serie erano incomplete, ovvero non disponevano dello stesso punto iniziale.
È quindi opportuno verificare in che modo vengono modificate le stime quando si eseguono in base al modello generale, che era basato sulle vendite mondiali, piuttosto che sui set di dati originali. Per assicurarsi di non aver perso alcuna informazione o distorto le stime, è possibile salvare i risultati in una tabella, unire in join la tabella delle stime alla tabella dei dati cronologici, quindi tracciare i due set di dati cronologici e stime.
Il diagramma seguente è basato su una sola linea di prodotti, M200. Nel grafico vengono confrontate le stime dal modello di data mining iniziale rispetto alle stime tramite il modello di data mining aggregato.
Da questo grafico è possibile osservare che il modello di data mining aggregato mantiene complessivamente l'intervallo e le tendenze dei valori riducendo però al minimo le fluttuazioni nella singola serie di dati.
Conclusioni
È stato descritto come creare e personalizzare un modello Time Series che può essere utilizzato per la stima.
Si è appreso come aggiornare i modelli Time Series senza doverli rielaborare, aggiungendo nuovi dati e creando stime con il parametro EXTEND_MODEL_CASES.
È stato descritto come creare modelli che possono essere utilizzati per stima incrociata tramite il parametro REPLACE_MODEL_CASES e applicando il modello a una serie di dati diversa.
Vedere anche
Esercitazione intermedia di Data Mining ( Analysis Services - Data Mining e 41 #;
Esempi di query sul modello di serie temporale