Informazioni sui requisiti per un modello Time Series (Esercitazione intermedia sul data mining)
Si applica a: SQL Server 2016 Preview
Quando si preparano i dati per l'utilizzo in un modello di previsione, è necessario assicurarsi che i dati contengano una colonna che possa essere utilizzata per identificare i passaggi nella serie temporale. Tale colonna verrà indicata il Key Time colonna. Essendo una chiave, nella colonna devono essere contenuti valori univoci.
Scelta dell'unità corretta per il Key Time colonna è una parte importante dell'analisi. Si supponga ad esempio che i dati di vendita vengano aggiornati una volta al minuto. Non è necessario utilizzare minuti come unità per la serie temporale. Potrebbe invece risultare più significativo eseguire il rollup dei dati di vendita per giorno, settimana o persino per mese. Se non si è certi di quale unità di tempo utilizzare, è possibile creare una nuova vista origine dati per ogni aggregazione e compilare i modelli correlati per verificare se emergono tendenze diverse a ogni livello di aggregazione.
Per questa esercitazione, i dati di vendita vengono raccolti su base giornaliera nel database transazionale delle vendite, ma ai fini del data mining i dati sono stati preaggregati per mese utilizzando una vista.
È inoltre auspicabile che nei dati utilizzati per l'analisi sia presente il minor numero di gap possibile. Se si prevede di analizzare più serie di dati, è preferibile che tutte le serie inizino e terminino nella stessa data. Se nei dati sono presenti gap, ma questi non si trovano all'inizio o alla fine di una serie, è possibile utilizzare il parametro MISSING_VALUE_SUBSTITUTION per riempire la serie. Analysis Services fornisce diverse opzioni per sostituire i dati mancanti con valori, ad esempio utilizzando medie o costanti.
Avviso
Gli strumenti Grafico pivot e Tabella pivot inclusi nelle versioni precedenti della finestra di progettazione Vista origine dati non vengono più forniti. È consigliabile identificare in anticipo i gap nei dati della serie temporale utilizzando strumenti come Profiler dati incluso in Integration Services.
Per identificare la chiave temporale per il modello di previsione
Nel riquadro di salesbyregion. dsv [Progettazione], fare doppio clic su tabella vTimeSeries e quindi selezionare Esplora dati.
Scheda verrà visualizzata una nuova, denominata Esplora tabella vTimeSeries.
Nel tabella scheda, esaminare i dati utilizzati nelle colonne TimeIndex e Reporting Date.
Sono entrambe sequenze con valori univoci ed entrambe possono essere utilizzate come chiave di serie temporale. I tipi di dati delle colonne sono tuttavia diversi. L'algoritmo Microsoft Time Series non richiede un datetime tipo di dati, solo che i valori siano distinti e ordinati. Pertanto, qualsiasi colonna può essere utilizzata come chiave temporale per il modello di previsione.
Nell'area di progettazione vista origine dati, selezionare la colonna Reporting Date e selezionare proprietà. Quindi, fare clic sulla colonna TimeIndex e selezionare proprietà.
Il campo TimeIndex con tipo di dati System. Int32, mentre il campo Reporting Date con tipo di dati System. DateTime. Molti data warehouse convertono i valori data/ora in Integer e utilizzano la colonna Integer come chiave, per migliorare le prestazioni di indicizzazione. Se tuttavia si utilizza questa colonna, le stime verranno eseguite dall'algoritmo Microsoft Time Series utilizzando valori futuri, ad esempio 201014, 201014 e così via. Poiché si desidera rappresentare i dati delle vendite tramite date del calendario di previsione, si utilizzerà la colonna Reporting Date come identificatore univoco della serie.
Per impostare la chiave nella vista origine dati
Nel riquadro salesbyregion. dsv, selezionare la tabella vTimeSeries.
La colonna Reporting Date, mouse e scegliere Imposta chiave primaria logica.
Gestione di dati mancanti (facoltativo)
Se in una serie mancano alcuni dati, è possibile che venga visualizzato un errore quando si tenta di elaborare il modello. Esistono diversi modi per risolvere il problema relativo ai dati mancanti:
È possibile lasciare che Analysis Services riempia i valori mancanti, calcolando una media o utilizzando un valore precedente. A tale scopo, impostare il parametro MISSING_VALUE_SUBSTITUTION nel modello di data mining. Per ulteriori informazioni su questo parametro, vedere riferimento tecnico algoritmo Microsoft Time Series. Per informazioni su come modificare i parametri su un modello di data mining esistente, vedere visualizzare o modificare i parametri dell'algoritmo.
È possibile modificare l'origine dati o filtrare la vista sottostante per eliminare la serie incomplete o sostituire valori. È possibile eseguire questa operazione nell'origine dati relazionale oppure modificare la vista origine dati creando query denominate personalizzate o calcoli denominati. Per altre informazioni, vedere Viste origine dati in modelli multidimensionali. Un'attività successiva in questa lezione fornisce un esempio di come compilare una query denominata e un calcolo personalizzato.
Per questo scenario mancano alcuni dati all'inizio di una serie, ovvero non sono presenti dati per la linea di prodotti T1000 fino a luglio 2007. Diversamente tutte le serie terminano nella stessa data e non vi sono valori mancanti.
Il requisito dell'algoritmo Microsoft Time Series è che tutte le serie incluse in un singolo modello devono avere la stessa Fine punti. Poiché il modello di bicicletta T1000 è stato introdotto nel 2007, i dati per questa serie iniziano più tardi rispetto agli altri modelli di bicicletta, ma la serie termina nella stessa data. I dati sono pertanto accettabili.
Per chiudere Progettazione vista origine dati
- Fare doppio clic su scheda Esplora tabella vTimeSeries, e selezionare Chiudi.
Attività successiva della lezione
Creazione di una struttura di previsione e modello ( esercitazione intermedia di Data Mining )