Esplorazione del modello di previsione (Esercitazione intermedia sul data mining)

Articolo
03/06/2017

Dopo aver compilato il modello di data mining di previsione, è possibile esplorare i risultati usando la scheda Visualizzatore modelli di data mining Designer. Microsoft Time Series Viewer contiene due schede: grafici e modello.

È inoltre possibile utilizzare Microsoft Generic Content Tree Viewer con tutti i modelli. Ogni vista presenta un'immagine leggermente diversa delle informazioni nel modello Time Series.

Scheda Grafici
Scheda Modello
Microsoft Generic Content Tree Viewer

Scheda Grafici

La scheda Grafici di Microsoft Time Series Viewer mostra graficamente ogni serie, inclusi i dati cronologici e le stime. Ogni linea del grafico della serie temporale rappresenta una combinazione univoca di prodotto, area e attributo stimabile.

Nella legenda a destra del visualizzatore vengono elencate le serie temporali disponibili, in base alle selezioni nell'elenco a discesa. È possibile scegliere le serie temporali da visualizzare nel grafico selezionando o deselezionando le caselle di controllo.

È inoltre possibile modificare le opzioni di visualizzazione, ad esempio i colori utilizzati per ogni serie temporale, o decidere se visualizzare i valori in qualsiasi punto del grafico.

Per selezionare una serie temporale

Fare clic sulla scheda Grafici della scheda Visualizzatore modelli di data mining , se non è visibile.
Fare clic sull'elenco a discesa a destra della vista del grafico e selezionare tutte le caselle di controllo. Fare clic su OK.

A questo punto il grafico dovrebbe contenere 24 linee delle serie.
Nelle caselle di controllo a destra del grafico deselezionare le caselle per nascondere temporaneamente le linee per tutte le serie basate sull'importo.

A questo punto deselezionare le caselle di controllo relative alle biciclette R750 e R250.

Il grafico conterrà solo le sei linee delle serie seguenti, in modo da consentire di confrontare più facilmente le tendenze per le biciclette M200 e T1000.
- M200 Europe: Quantity
- M200 North America: Quantity
- M200 Pacific: Quantity
- T1000 Europe: Quantity
- T1000 North America: Quantity
- T1000 Pacific: Quantity

Serie che stimano la quantità M200 e T1000

Nel grafico riprodotto in questo visualizzatore sono inclusi sia i dati cronologici che quelli stimati. Ai dati stimati viene applicata un'ombreggiatura per distinguerli dai dati cronologici. Per rendere più semplice il confronto tra serie diverse, è inoltre possibile modificare i colori associati a ogni linea nel grafico. Per altre informazioni, vedere Modificare i colori usati nei visualizzatori data mining.

Dalle linee di tendenza è possibile vedere che in genere le vendite totali per tutte le aree sono in aumento e raggiungono il periodo di picco ogni anno nel mese di dicembre. Dal grafico è inoltre possibile vedere che i dati per la bicicletta T1000 hanno inizio molto più tardi dei dati per le altre serie di prodotti. Ciò è dovuto al fatto che si tratta di un prodotto più nuovo, ma essendo questa serie basata su una quantità di dati molto inferiore, è possibile che le stime non siano accurate.

Per impostazione predefinita, vengono visualizzati cinque intervalli per la stima per ogni serie temporale, sotto forma di linea punteggiata. È possibile modificare questo valore in modo da visualizzare un numero maggiore o minore di stime. È inoltre possibile visualizzare graficamente la deviazione standard per le stime aggiungendo barre di errore al grafico.

Per modificare le opzioni relative a stima e visualizzazione nella vista del grafico

Provare a modificare il valore per i passaggi di stima gradualmente, aumentandolo da 5 a 10 e quindi tornare a 6.

Nel caso di ampie fluttuazioni dei dati cronologici, tali fluttuazioni tendono a essere ripetute o addirittura amplificate man mano che si aumenta il numero di stime. A questo punto è probabilmente necessario effettuare una ricerca per comprendere la causa dell'eccessivo aumento di dati cronologici e decidere quindi se accettare i risultati, cercare di trovare un tipo di correzione nei dati di origine o applicare l'anti-aliasing al modello.
Selezionare la casella di controllo Mostra deviazioni .

Questa opzione consente di visualizzare l'errore stimato per ogni valore stimato.
Osservare la scala dell'asse X. Le modifiche dei dati cronologici e stimati vengono sempre espresse come una percentuale, ma i valori effettivi vengono modificati automaticamente in base a tutti i valori nel grafico. In caso di confronto dei modelli, è pertanto opportuno evitare di basarsi solo sugli elementi visivi. Per ottenere il valore esatto o l'aumento percentuale e il valore per le stime, sospendere il mouse sulla linea tratteggiata o sulle linee solide oppure fare clic sulle righe per visualizzare i valori nella legenda di data mining.

Suggerimento: se la legenda di data mining non è visibile, passare alla visualizzazione Modello , fare clic con il pulsante destro del mouse su qualsiasi nodo e selezionare Mostra legenda.

Analizzando queste tendenze si nota la mancanza di dati per alcune serie e si desidera ottenere stime più affidabili facendo la media delle vendite per modello o eventualmente per area. Si esaminerà questo approccio in una lezione successiva di questa esercitazione.

Torna all'inizio

Scheda Modello

La scheda Modello di Microsoft Time Series Viewer in Data Mining Designer consente di visualizzare il modello di previsione sotto forma di grafico ad albero.

Notare innanzitutto che poiché i dati descrivono due misure diverse (Amount e Quantity) per vendite di più linee di prodotti (T1000 e così via) in tre aree diverse (Europa, America del Nord e Pacific), il modello compilato contiene in effetti 24 alberi diversi, ognuno dei quali rappresenta un modello dei modelli di vendita per una combinazione diversa di area, prodotto e attributo stimabile.

È possibile scegliere quale combinazione di linee prodotto, area e metrica di vendita da visualizzare selezionando una serie dall'elenco a discesa Albero nella scheda Modello .

Nozioni che è possibile apprendere visualizzando il modello come un albero Ad esempio, si confrontano due modelli, uno con diversi livelli nell'albero e uno con un singolo nodo.

Quando un grafico dell'albero contiene un singolo nodo, significa che la tendenza individuata nel modello è per lo più omogenea nel tempo. È possibile usare questo singolo nodo, etichettato Tutto, per visualizzare la formula che descrive la relazione tra le variabili di input e il risultato.
Se un grafico dell'albero per una serie temporale dispone di più rami, significa che la serie temporale rilevata è troppo complessa per essere rappresentata come una singola equazione. Il grafico ad albero potrebbe invece contenere più rami, ogni ramo etichettato con le condizioni che hanno causato la divisione dell'albero. Quando l'albero viene diviso, ogni ramo rappresenta un segmento temporale diverso, all'interno del quale la tendenza può essere descritta come una singola equazione.

Ad esempio, se si esamina il grafico del grafico e si vede un improvviso salto nel volume di vendita a partire da settembre e continuare a un periodo di vacanza di fine anno, è possibile passare alla visualizzazione Modello per visualizzare la data esatta in cui la tendenza è cambiata. I rami dell'albero che rappresentano "prima di settembre" e "dopo settembre" contengono formule diverse: una formula che descrive matematicamente le tendenze di vendita fino alla divisione e un'altra formula che descrive le tendenze di vendita per settembre fino alla vacanza di fine anno.

Per esplorare l'albero delle decisioni per un modello Time Series

Nell'elenco Albero della scheda Modello del visualizzatore selezionare la serie T1000 Europe: Amount .

Fare clic sul nodo etichettato Tutto.

Per un nodo All , la descrizione comando visualizzata include informazioni come il numero di case nell'intera serie e le equazioni della serie temporale derivate dall'analisi dei dati.
Se la legenda di data mining non è visibile, fare clic con il pulsante destro del mouse sul nodo e selezionare Mostra legenda.

La legenda di data mining fornisce molte stesse informazioni contenute nella descrizione comando. Se una delle variabili indipendenti è discreta, verrà inoltre visualizzato un istogramma che illustra la distribuzione delle variabili nel nodo.
A questo punto selezionare una serie temporale diversa da visualizzare. Usando l'elenco Albero nella scheda Modello del visualizzatore selezionare la serie M200 America del Nord: Amount.

Il grafico ad albero contiene ora un nodo All e due nodi figlio. Osservando le etichette dei nodi figlio, è possibile identificare il punto in cui la linea di tendenza è stata modificata.

Per ogni nodo figlio, la descrizione nella legenda di data mining include anche il conteggio dei casi in ogni ramo dell'albero.

Nell'elenco seguente vengono descritte alcune funzionalità aggiuntive del visualizzatore alberi:

È possibile modificare la variabile rappresentata nel grafico usando il controllo Background . Per impostazione predefinita, i nodi che sono più scuri contengono più casi, perché il valore di Background è impostato su Popolamento. Per visualizzare solo il numero di casi presenti in un nodo, sospendere il mouse su un nodo e visualizzare la descrizione comando visualizzata oppure fare clic sul nodo e visualizzare i numeri nella finestra Legenda nodo .
Nella descrizione comando o facendo clic sul nodo è inoltre possibile visualizzare la formula di regressione del nodo. Se è stato creato un modello misto, è possibile visualizzare due formule, una per ARTXP (nei nodi foglia) e uno per ARIMA (nel nodo radice dell'albero).
Nei nodi che rappresentano numeri continui vengono utilizzati piccoli rombi. L'intervallo degli attributi viene visualizzato nella barra su cui è presente il rombo. Il rombo è centrato sulla media del nodo e il relativo spessore rappresenta la varianza dell'attributo in tale nodo.

Torna all'inizio

(Facoltativo) Generic Content Tree Viewer

Oltre al visualizzatore personalizzato per le serie temporali, Analysis Services fornisce MicrosoftGeneric Content Tree Viewer per l'uso con tutti i modelli di data mining. Questo visualizzatore fornisce alcuni vantaggi:

Microsoft Time Series Viewer: questa visualizzazione unisce i risultati dei due algoritmi. Anche se è possibile visualizzare ogni serie separatamente, non è possibile determinare come sono stati combinati i risultati di ogni algoritmo. Inoltre in questa vista le descrizioni comando e Legenda data mining mostrano solo le statistiche più importanti.
Visualizzatore albero contenuto generico: consente di esplorare e visualizzare tutte le serie di dati usate nel modello contemporaneamente e, se è stato creato un modello misto, gli alberi ARIMA e ARTXP vengono visualizzati nello stesso grafico.

È possibile utilizzare questo visualizzatore per ottenere tutte le statistiche da entrambi gli algoritmi, oltre alle distribuzioni dei valori.

Consigliato per gli utenti esperti di data mining chi desiderano ottenere maggiori informazioni sulle analisi ARIMA e ARTXP.

Per visualizzare i dettagli per una particolare serie di dati in Generic Content Tree Viewer

Nella scheda Visualizzatore modelli di data mining selezionare Visualizzatore albero contenuto generico Microsoft nell'elenco a discesa Visualizzatore.
Nel riquadro Node Caption (Didascalia nodo ) fare clic sul nodo in alto (Tutti).
Nel riquadro Dettagli nodo visualizzare il valore per ATTRIBUTE_NAME.

Questo valore indica quale serie, o combinazione di prodotto e area, è contenuta nel nodo. Nell'esempio di AdventureWorks il nodo superiore è relativo alla serie M200 Europe.
Nel riquadro Didascalia nodo individuare il primo nodo con nodi figlio.

Se un nodo serie ha elementi figlio, anche la visualizzazione albero visualizzata nella scheda Modello del Visualizzatore Microsoft Time Series avrà una struttura di diramazione.
Espandere il nodo e fare clic su uno dei nodi figlio.

La colonna NODE_DESCRIPTION dello schema contiene la condizione che ha causato la suddivisione dell'albero.
Nel riquadro Didascalia nodo fare clic sul nodo ARIMA più in alto ed espandere il nodo fino a quando non sono visibili tutti i nodi figlio.
Nel riquadro Dettagli nodo visualizzare il valore per ATTRIBUTE_NAME.

Questo valore indica quale serie temporale è contenuta nel nodo. Il nodo superiore nella sezione ARIMA deve corrispondere al nodo superiore nella sezione (Tutti). Nell'esempio di AdventureWorks questo nodo contiene l'analisi ARIMA relativa alla serie M200 Europe.