了解時間序列模型中的趨勢 (中繼資料採礦教學課程)
當您查看各種以彙總資料為根據的模型時,您會發現趨勢線和預測線看起來非常不同,這是根據您是否加總不同模型和地區之間的金額和數量,或是您是否平均計算數字而定。
當您決定哪一個模型要當做一般模型套用,以供全球預測使用時,您會將基礎資料及預測圖表一起檢閱,以便能夠更了解預測。
您注意到趨勢線在 2006 年六月以前是重疊的,這一個月的數量和金額線條開始分歧。然後在 2008 年七月,這些線條又再次分歧。
在此工作中,您將會根據原始資料來源檢視來建立具名計算,好幫助您追蹤數量與價格之間的關聯性。然後,您將會建立一個包含這個比率的樞紐圖表,幫助您了解趨勢線的分割。
檢閱基礎資料
若要建立具名計算
在 [方案總管] 中,展開 [資料來源檢視],然後按兩下 SalesByRegion.dsv。
以滑鼠右鍵按一下 vTimeSeries 資料表,並選取 [新增具名計算]。
在 [建立具名計算] 方塊內,針對 [名稱] 輸入 UnitAmt。
在 [運算式] 文字方塊中,輸入 Amount/Quantity。按一下 [確定]。
vTimeSeries 資料表現在包含額外的導出資料行 UnitAmt。這個導出資料行只會儲存在資料採礦專案的資料來源檢視定義中,而且不會影響基礎關聯式資料庫檢視。
若要使用具名計算建立樞紐圖表
以滑鼠右鍵按一下 vTimeSeries 資料表,並選取 [瀏覽資料]。
在 [瀏覽 vTimeSeries 資料表] 索引標籤上,按一下 [樞紐資料表] 索引標籤。
將 TimeIndex 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [將欄欄位拖曳到這裡]。
將 ModelRegion 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [將列欄位拖曳到這裡]。
將 UnitAmt 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [請將總和欄位或詳細資料欄位拖曳到這裡]。
檢閱彙總模型
您可以從樞紐資料表得知,每個單位的銷售量在好幾個時間點發生重大變更,可能是因為產品價格發生變動。在 2007 年七月,當新的版本 T1000 加入到所有區域時,有另一個重大的變更。所有的這些變更都會影響在此模型內計算的趨勢。通用的模型非常實用,因為它會讓任何變更的影響降至最低。但是在某些案例中,您可能會決定針對新的存放區建立個別模型,好讓這些存放區中的資料不會影響趨勢。
在此教學課程中,您將會挑選其中一個彙總模型套用到銷售預測。請記得您已經建立四個不同的採礦模型,每一個模型都是根據不同的彙總量值。您將會使用時間序列檢視器中所提供的工具,連同您稍早所建立的樞紐資料表,以指引這項決定。下圖顯示針對彙總模型所建立的時間序列圖表。灰色的兩條序列線顯示平均值,綠色的兩條序列線顯示總和。
在您決定要將哪一個採礦模型用於銷售預測以前,您決定先調查以下幾點:
根據金額趨勢的採礦模型上升,而根據數量的模型則循環下跌。
根據平均金額 (AvgAmt) 的預測及根據總和數量 (SumQty) 的預測相差很遠。
雖然三個模型中的趨勢線在五個預測之後變平,但是根據總和數量之模型中的趨勢線則繼續急速上升。
如需詳細資訊,您可以檢查三件事。首先,選取 [顯示偏差] 核取方塊,顯示每一項預測的標準差。比較長的誤差線表示預測的值有比較大的變異。
第二,請注意 Y 軸的單位是百分比;但是,請注意圖形的刻度會因圖形中的資料而不同。根據預設,Microsoft 時間序列檢視器會自動調整百分比軸上的單位,讓圖形能夠以最容易的方式檢視。因此,如果您想要使用特定或固定的刻度,您應該使用預測查詢來建立及匯出值,並在另一個應用程式 (如 Microsoft Excel) 中建立圖形。
最後,您可以使用時間序列模型的決策樹檢視來了解模型的分割。在時間序列模型中,決策樹中的分割或分支表示趨勢線的斜率在某個時間點有重大的變更,或者表示決策樹根據某個其他條件而產生分支。在樹狀檢視中將這些分割顯示為節點的檢視可讓您向下鑽研到產生此分割的細節。
若要檢視每一個數列的決策樹
在 [方案總管] 中展開 [資料來源檢視],然後以滑鼠右鍵按一下 AllRegions.dsv。
以滑鼠右鍵按一下 vTimeSeries 資料表,並選取 [瀏覽資料]。
在 [瀏覽 vTimeSeries 資料表] 索引標籤上,按一下 [樞紐資料表] 索引標籤。
將 ReportingDate 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [將欄欄位拖曳到這裡]。
將 Region 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [將列欄位拖曳到這裡]。
將 UnitAmt 欄位從 [樞紐資料表欄位清單] 方塊拖曳到樞紐資料表設計介面上,該處會指示 [請將總和欄位或詳細資料欄位拖曳到這裡]。
也請務必了解,因為時間序列模型是使用移動平均來計算,所以資料數列結尾的資料值對於預測的影響能力要比資料數列開頭的資料值更大。此外,當您建立模型時所提供的週期性提示也會影響一段時間的平均值使用方式。
結論
根據這項分析,我們學到幾件事:
數量的本質非常易變,因為某些存放區的絕對值可能會很低;此外,圖表檢視通常會將數字呈現為百分比而誇大差異。
金額似乎更為易變,因為金額相依於數量,但是也會受到價格變動的影響。
M200 North America 數列的預測中有很強的上升趨勢,這是因為對於通往歷程記錄資料結尾的這個產品和地區組合而言,銷售量特別高所造成。
因為深入瀏覽資料和各種模型,所以您很滿意已經找到可靠的模型。如果您的商務使用者要求您證明分析的合理性,您可以取得公式及支援的資料,其方式是使用資訊提示中所提供的統計資料,或是瀏覽或查詢模型內容。
在下一課,您將會使用根據平均數量的模型,針對所有地區的數量做預測。