集計予測モデルの追加 (中級者向けデータ マイニング チュートリアル)
予測モデルの検証によって、ほとんどの地域の売上が一定のパターンに合致するものの、太平洋地域の M200 モデルなど、一部の地域とモデルについては、傾向が大きく異なることがわかりました。地域間で違いが生じることは一般的で、その要因は販売促進の有無、レポートの不正確性、地政学的なイベントの有無など多岐にわたります。
これらの要因が予測に与える影響を最小限に抑えるには、全世界の売上の集計メジャーに基づく汎用マイニング モデルを作成します。その後、このモデルに基づく予測を作成し、個々の地域に適用することができます。最後に、さまざまな製品で作成した予測を比較します。
汎用モデルのデータの作成
汎用モデルを作成するには、まず全世界の売上データを集計します。この操作を行うには、既存のデータ ソースを使用するが合計や平均などの計算を実行する特別なデータ ソース ビューを作成します。
カスタム クエリまたはカスタム計算を使用してデータ ソース ビューを作成するには
ソリューション エクスプローラで [データ ソース ビュー] を右クリックし、[新しいデータ ソース ビュー] をクリックします。
ウィザードの [ようこそ] ページで、[次へ] をクリックします。
[データ ソースの選択] ページで [Adventure Works DW2008] を選択し、[次へ] をクリックします。
[テーブルとビューの選択] ページで、[次へ] をクリックします。
[ウィザードの完了] ページで、「AllRegions」と名前を入力し、[完了] をクリックします。
次に、空白のデータ ソース ビュー デザイン画面を右クリックし、[新しい名前付きクエリ] をクリックします。
[名前付きクエリの作成] ダイアログ ボックスの [名前] に「AllRegions」と入力し、[説明] に「すべてのモデルおよび地域の売上の合計と平均」と入力します。
SQL テキスト ペインに次のステートメントを入力します。
SELECT ReportingDate, SUM([Quantity]) as SumQty, AVG([Quantity]) as AvgQty, SUM([Amount]) AS SumAmt, AVG([Amount]) AS AvgAmt, 'All Regions' as [Region] FROM dbo.vTimeSeries GROUP BY ReportingDate
[OK] をクリックします。
[AllRegions] テーブルを右クリックし、[データの探索] をクリックします。
新しいデータ ソース ビューには、全世界におけるすべての製品の売上の合計と平均の両方が含まれます。売上をモデル別にグループ化して集計することもできますが、このチュートリアルでは、地域または製品を任意に組み合わせた予測に使用できる単一の時系列モデルを作成します。
新しいデータのビューを作成したら、新しいマイニング構造を作成し、その構造に基づくマイニング モデルを作成する必要があります。マイニング構造の作成方法については、既に説明してきました。したがって、次の手順は簡略化して示します。
集計データを使用してマイニング構造とマイニング モデルを作成するには
ソリューション エクスプローラで [マイニング構造] を右クリックし、[新しいマイニング構造] をクリックして、データ マイニング ウィザードを起動します。
データ マイニング ウィザードで、以下の選択を行います。
[アルゴリズム] : [Microsoft タイム シリーズ]
[データ ソース ビュー] : AllRegions
[キー] : ReportingDate (Key Time) および Region (Key)
Input および Predict : AvgAmt、AvgQty、SumAmt、SumQty
[マイニング構造名] : All Regions
[マイニング モデル名] : All Regions
構造およびモデルを処理します。
結果の表示
全世界の予測を行うための汎用モデルとして使用するモデルを決定する前に、予測についてより深く理解する必要があります。Microsoft タイム シリーズ ビューアでさまざまな集計系列のマイニング モデルおよび予測を確認すると、いくつかの疑問が浮かびます。
2002 年 6 月まで、各傾向線はほぼ同じパターンに従っています。その時点で、数量と金額の線が分かれています。この変化の原因は何だったのでしょうか。
その後さらに、2004 年 7 月にも線が分かれています。何が起こったのでしょうか。
M200 North America 系列の予測がその他の製品および地域の予測よりもはるかに高くなっています。この予測は正しくない可能性があり、この系列を組み込むと作成した汎用モデルに影響するおそれがあります。
次の作業では、個々の系列モデルの傾向線および予測と集計データに基づくモデルを比較して、基になるデータがモデルに与える影響を確認します。
モデルが正しいことを確認したので結果をより深く理解する必要がない場合は、スキップして「平均予測モデルを使用した予測 (中級者向けデータ マイニング チュートリアル)」の作業に進むこともできます。