Informazioni sulle tendenze nel modello Time Series (Esercitazione intermedia sul data mining)
Analizzando i vari modelli creati sulla base di dati aggregati, è possibile notare che le linee di tendenza e stima appaiono molto diverse a seconda che siano stati sommati importi e quantità dei diversi modelli e aree o che sia stata calcolata la media delle cifre.
Prima di decidere quale modello applicare come modello generale per la creazione di proiezioni a livello mondiale, verranno analizzati i dati sottostanti insieme al grafico di stima, al fine di comprendere meglio le stime.
Si è notato che le linee di tendenza si sovrappongono fino a giugno 2002, quindi le linee relative a quantità e importo divergono. Da luglio 2004 le linee divergono nuovamente.
In questa attività si creerà un calcolo denominato basato sulla vista di origine dati originale in modo da tenere traccia più facilmente della relazione tra quantità e prezzo. Verrà quindi creato un grafico pivot che include questo rapporto per semplificare la comprensione delle divisioni nelle linee di tendenza.
Analisi dei dati sottostanti
Per creare un calcolo denominato
In Esplora soluzioni espandere Viste origine dati e fare doppio clic su SalesByRegion.dsv.
Fare clic con il pulsante destro del mouse sulla tabella vTimeSeries e scegliere Nuovo calcolo denominato.
Nella casella Crea calcolo denominato digitare UnitAmt in Nome.
Nella casella di testo Espressione digitare Amount/Quantity. Scegliere OK.
La tabella vTimeSeries contiene ora una colonna calcolata aggiuntiva, ovvero UnitAmt. Tale colonna è archiviata solo nella definizione della vista origine dati per il progetto di data mining e non influisce sulla vista del database relazionale sottostante.
Per creare un grafico pivot utilizzando il calcolo denominato
Fare clic con il pulsante destro del mouse sulla tabella vTimeSeries, quindi scegliere Esplora dati.
Nella scheda Esplora tabella vTimeSeries fare clic sulla scheda Tabella pivot.
Trascinare il campo TimeIndex dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi colonna.
Trascinare il campo ModelRegion dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi riga.
Trascinare il campo UnitAmt dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi Totali o Dettaglio.
Analisi dei modelli aggregati
Esaminando la tabella pivot è possibile notare che in diversi periodi temporali si sono verificate variazioni sostanziali nella quantità di vendite per unità, probabilmente a causa di una variazione dei prezzi. Per il mese di luglio 2003 si registra un altro cambiamento significativo in corrispondenza dell'aggiunta di una nuova versione, il T1000, a tutte le aree. Tutti questi cambiamenti influiscono sulle tendenze calcolate nel modello. Un modello generalizzato è utile perché riduce l'impatto delle singole variazioni. In alcuni scenari, tuttavia, potrebbe nascere l'esigenza di creare modelli distinti per i nuovi negozi, in modo che i relativi dati non influiscano sulle tendenze.
Per questa esercitazione, si sceglierà uno dei modelli di aggregazione da applicare alle proiezioni di vendita. Tenere presente che sono stati precedentemente creati quattro diversi modelli di data mining, ciascuno basato su una misura di aggregazione diversa. Verranno utilizzati gli strumenti forniti nel Visualizzatore Time Series insieme alla tabella pivot creata in precedenza per guidare questa decisione. Nel diagramma seguente viene illustrato il grafico delle serie temporali creato per i modelli di aggregazione. Le due linee delle serie in grigio rappresentano le medie, mentre le due linee in verde rappresentano le somme.
Prima di scegliere il modello di data mining da utilizzare per le proiezioni di vendita, si decide di esaminare gli aspetti seguenti:
I modelli di data mining basati sull'importo mostrano una tendenza verso l'alto, mentre i modelli basati sulla quantità registrano un ribasso ciclico.
Le proiezioni basate sull'importo medio (AvgAmt) e le proiezioni basate sulla quantità delle somme (SumQty) si differenziano notevolmente.
Mentre le linee di tendenza in tre dei modelli si stabilizzano dopo 5 stime, la linea di tendenza nel modello basato sulla quantità delle somme continua a salire nettamente.
È possibile ottenere ulteriori informazioni in tre modi. Selezionare innanzitutto la casella di controllo Mostra deviazioni per visualizzare le deviazioni standard per ogni stima. Una barra di errore più lunga indica una maggiore varianza nel valore stimato.
Si noti inoltre che l'unità dell'asse y è espressa in percentuale e che la scala del grafico cambia in base ai dati. Per impostazione predefinita, il Visualizzatore Microsoft Time Series regola automaticamente le unità sull'asse della percentuale per semplificare la visualizzazione del grafico. Pertanto, se si desidera utilizzare una scala specifica o fissa, è necessario utilizzare una query di stima per creare ed esportare i valori e creare un grafico in un'altra applicazione, ad esempio Microsoft Excel.
Infine, è possibile utilizzare la visualizzazione albero delle decisioni del modello Time Series per comprendere le divisioni nel modello. In un modello Time Series, una divisione o un ramo nell'albero delle decisioni può indicare che l'inclinazione della linea di tendenza è cambiata significativamente in un determinato punto oppure che l'albero si è diramato in base ad alcune altre condizioni. Nella vista in cui queste divisioni appaiono come nodi in una visualizzazione albero è possibile eseguire il drill-down dettagliato fino a risalire alla causa della divisione.
Per visualizzare l'albero delle decisioni per ogni serie
In Esplora soluzioni espandere Viste origine dati e fare clic con il pulsante destro del mouse su AllRegions.dsv.
Fare clic con il pulsante destro del mouse sulla tabella vTimeSeries, quindi scegliere Esplora dati.
Nella scheda Esplora tabella vTimeSeries fare clic sulla scheda Tabella pivot.
Trascinare il campo ReportingDate dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi colonna.
Trascinare il campo Region dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi riga.
Trascinare il campo UnitAmt dalla casella Elenco campi tabella pivot e rilasciarlo nell'area di progettazione della tabella pivot in corrispondenza del testo Rilasciare qui i campi Totali o Dettaglio.
È inoltre importante comprendere che, poiché un modello Time Series viene calcolato tramite medie mobili, i valori dei dati alla fine della serie di dati possono avere un maggiore impatto sulla stima rispetto ai valori dei dati all'inizio della serie di dati. Inoltre, anche l'hint di periodicità fornito al momento della generazione del modello influisce sulla modalità di utilizzo delle medie nel tempo.
Conclusione
Dall'analisi eseguita si è appreso quanto segue:
La quantità è intrinsecamente volatile, dal momento che i valori assoluti potrebbero essere molto bassi per alcuni negozi. Inoltre, la vista del grafico tende a esagerare le differenze presentando le cifre come percentuali.
L'importo risulta ancora più volatile, poiché oltre a dipendere dalla quantità è anche soggetto a variazioni di prezzo.
La forte tendenza verso l'alto nelle stime relative alla serie M200 North America è causata dal fatto che il volume delle vendite è particolarmente elevato per questa combinazione di prodotto e area verso la fine dei dati cronologici.
Grazie all'esplorazione dettagliata dei dati e dei vari modelli, è stato individuato un modello affidabile. In caso gli utenti aziendali necessitino di una giustificazione per tale analisi, è possibile ottenere formule e dati di supporto utilizzando le statistiche disponibili nella finestra popup oppure esplorando o eseguendo una query sul contenuto del modello.
Nella lezione successiva verrà utilizzato il modello basato sulla quantità media per eseguire stime relative alla quantità in tutte le aree.
Attività successiva della lezione