了解時間序列模型的需求 (中繼資料採礦教學課程)
當您準備要用於預測模型的資料時,必須確認該資料包含可用於識別時間序列步驟的資料行。 該資料行將指定為 Key Time
資料行。 此資料行是索引鍵,因此必須包含唯一的數值。
選擇 Key Time
資料行的正確單位是分析中重要的一環。 例如,假設銷售資料每分鐘重新整理一次。 您不一定要將分鐘當做時間序列單位使用;您可能會發現,依日、週或甚至月來積存銷售資料可能更有意義。 如果您不確定要使用哪個時間單位,可以為每個彙總建立一個新的資料來源檢視,並建立相關的模型,看看是否在每個彙總層級出現不同的趨勢。
在本教學課程中,每天於交易式銷售資料庫中收集銷售資料,但對於資料採礦,則使用檢視,依月預先彙總資料。
此外,對於分析,資料的間距愈少愈好。 如果您計劃分析多個資料數列,所有數列的開始和結束時間最好應該在同一天。 如果資料有間距,但間距不在數列開頭或結尾處,您可以使用 MISSING_VALUE_SUBSTITUTION 參數來填滿數列。 Analysis Services 也提供數個選項,以值取代遺漏的資料,例如使用 means 或常數。
警告
我們不再提供舊版資料來源檢視設計工具隨附的樞紐分析圖和樞紐分析表工具。 建議您事先使用 Integration Services 中包含的資料分析工具之類的工具來識別時間序列資料中的間距。
識別預測模型的時間索引鍵
在 [ SalesByRegion.dsv]窗格中,以滑鼠右鍵按一下資料表 vTimeSeries,然後選取 [ 探索資料]。
新的索引標籤隨即開啟,標題為 [探索 vTimeSeries 資料表]。
在 [ 資料表] 索引 標籤上,檢閱 TimeIndex 和 Reporting Date 資料行中使用的資料。
這兩個資料行都是具有唯一值的序列,都可以做為時間序列索引鍵;不過,資料行的資料類型不同。 Microsoft 時間序列演算法不要求使用
datetime
資料類型,只要求使用的值必須相異且經過排序。 因此,您可以使用任何一個資料行做為預測模型的時間索引鍵。在資料來源檢視設計介面中,選取資料行[報表日期],然後選取 [ 屬性]。 接下來,按一下 [TimeIndex] 資料行,然後選取 [ 屬性]。
欄位 TimeIndex 具有資料類型 System.Int32,而欄位 Reporting Date 則具有 System.DateTime 資料類型。 許多資料倉儲都會將日期/時間值轉換為整數,並將整數資料行做為索引鍵,以改進索引效能。 不過,如果您使用此資料行,Microsoft 時間序列演算法會使用未來值 (例如 201014、201014 等) 做預測。 因為您想要使用行事曆日期來代表銷售資料預測,所以您會使用 [報表日期] 資料行作為唯一的數列識別碼。
若要設定資料來源檢視中的索引鍵
在 [ SalesByRegion.dsv] 窗格中,選取 vTimeSeries 資料表。
以滑鼠右鍵按一下資料行 [報告日期],然後選取 [設定邏輯主鍵]。
處理遺漏資料 (選擇性)
如果有任何序列遺漏資料,當您嘗試處理模型時,可能會收到錯誤訊息。 解決遺漏資料的方法有好幾種:
您可以讓 Analysis Services 計算平均值或使用上一個值,藉此填滿遺漏值。 方法是,在採礦模型上設定 MISSING_VALUE_SUBSTITUTION 參數。 如需此參數的詳細資訊,請參閱 Microsoft 時間序列演算法技術參考。 如需如何在現有採礦模型上變更參數的資訊,請參閱 檢視或變更演算法參數。
您可以改變資料來源或是篩選基礎檢視,以便刪除不完全的數列或取代值。 您可以在關聯式資料來源中進行此動作,或是建立自訂具名查詢或具名計算以修改資料來源檢視。 如需詳細資訊,請參閱 多維度模型中的資料來源檢視。 此課程稍後的一項工作提供了如何建立具名查詢與自訂計算的範例。
在這個案例中,有一個數列開頭處缺少某些資料:亦即,直到 2007 年 7 月才有 T1000 產品線的資料。 除此之外,所有數列都是在同一天結束,沒有遺漏值。
Microsoft 時間序列演算法的需求是您在單一模型中包含的任何序列都應該具有相同 的結束 點。 由於 T1000 自行車模型從 2007 年引進,這個序列的資料比其他自行車模型開始時間晚,但是結束日期相同,因此這個序列的資料可以使用。
關閉資料來源檢視設計師
- 以滑鼠右鍵按一下索引標籤, 流覽 vTimeSeries 資料表,然後選取 [關閉]。