[アーティクル]
09/28/2010

集計予測モデルの追加 (中級者向けデータマイニングチュートリアル)

予測モデルの検証によって、ほとんどの地域の売上が一定のパターンに合致するものの、太平洋地域の M200 モデルなど、一部の地域とモデルについては、傾向が大きく異なることがわかりました。地域間で違いが生じることは一般的で、その要因は販売促進の有無、レポートの不正確性、地政学的なイベントの有無など多岐にわたります。

これらの要因が予測に与える影響を最小限に抑えるには、全世界の売上の集計メジャーに基づく汎用マイニングモデルを作成します。その後、このモデルに基づく予測を作成し、個々の地域に適用することができます。最後に、さまざまな製品で作成した予測を比較します。

汎用モデルのデータの作成

汎用モデルを作成するには、まず全世界の売上データを集計します。この操作を行うには、既存のデータソースを使用するが合計や平均などの計算を実行する特別なデータソースビューを作成します。

カスタムクエリまたはカスタム計算を使用してデータソースビューを作成するには

ソリューションエクスプローラで [データソースビュー] を右クリックし、[新しいデータソースビュー] をクリックします。
ウィザードの [ようこそ] ページで、[次へ] をクリックします。
[データソースの選択] ページで [Adventure Works DW2008] を選択し、[次へ] をクリックします。
[テーブルとビューの選択] ページで、[次へ] をクリックします。
[ウィザードの完了] ページで、「AllRegions」と名前を入力し、[完了] をクリックします。
次に、空白のデータソースビューデザイン画面を右クリックし、[新しい名前付きクエリ] をクリックします。
[名前付きクエリの作成] ダイアログボックスの [名前] に「AllRegions」と入力し、[説明] に「すべてのモデルおよび地域の売上の合計と平均」と入力します。

SQL テキストペインに次のステートメントを入力します。

SELECT ReportingDate, 
SUM([Quantity]) as SumQty, AVG([Quantity]) as AvgQty,
SUM([Amount]) AS SumAmt, AVG([Amount]) AS AvgAmt,
'All Regions' as [Region]
FROM dbo.vTimeSeries 
GROUP BY ReportingDate

[OK] をクリックします。
[AllRegions] テーブルを右クリックし、[データの探索] をクリックします。

新しいデータソースビューには、全世界におけるすべての製品の売上の合計と平均の両方が含まれます。売上をモデル別にグループ化して集計することもできますが、このチュートリアルでは、地域または製品を任意に組み合わせた予測に使用できる単一の時系列モデルを作成します。

新しいデータのビューを作成したら、新しいマイニング構造を作成し、その構造に基づくマイニングモデルを作成する必要があります。マイニング構造の作成方法については、既に説明してきました。したがって、次の手順は簡略化して示します。

集計データを使用してマイニング構造とマイニングモデルを作成するには

ソリューションエクスプローラで [マイニング構造] を右クリックし、[新しいマイニング構造] をクリックして、データマイニングウィザードを起動します。
データマイニングウィザードで、以下の選択を行います。
- [アルゴリズム] : [Microsoft タイムシリーズ]
- [データソースビュー] : AllRegions
- [キー] : ReportingDate (Key Time) および Region (Key)
- Input および Predict : AvgAmt、AvgQty、SumAmt、SumQty
- [マイニング構造名] : All Regions
- [マイニングモデル名] : All Regions
構造およびモデルを処理します。

結果の表示

全世界の予測を行うための汎用モデルとして使用するモデルを決定する前に、予測についてより深く理解する必要があります。Microsoft タイムシリーズビューアでさまざまな集計系列のマイニングモデルおよび予測を確認すると、いくつかの疑問が浮かびます。

2002 年 6 月まで、各傾向線はほぼ同じパターンに従っています。その時点で、数量と金額の線が分かれています。この変化の原因は何だったのでしょうか。
その後さらに、2004 年 7 月にも線が分かれています。何が起こったのでしょうか。
M200 North America 系列の予測がその他の製品および地域の予測よりもはるかに高くなっています。この予測は正しくない可能性があり、この系列を組み込むと作成した汎用モデルに影響するおそれがあります。

次の作業では、個々の系列モデルの傾向線および予測と集計データに基づくモデルを比較して、基になるデータがモデルに与える影響を確認します。

モデルが正しいことを確認したので結果をより深く理解する必要がない場合は、スキップして「平均予測モデルを使用した予測 (中級者向けデータマイニングチュートリアル)」の作業に進むこともできます。

このレッスンの次の作業

時系列モデルの傾向について (中級者向けデータマイニングチュートリアル)

次の方法で共有

集計予測モデルの追加 (中級者向けデータマイニングチュートリアル)

汎用モデルのデータの作成

カスタムクエリまたはカスタム計算を使用してデータソースビューを作成するには

集計データを使用してマイニング構造とマイニングモデルを作成するには

結果の表示

このレッスンの次の作業

関連項目

参照

概念

その他のリソース

次の方法で共有

集計予測モデルの追加 (中級者向けデータ マイニング チュートリアル)

汎用モデルのデータの作成

カスタム クエリまたはカスタム計算を使用してデータ ソース ビューを作成するには

集計データを使用してマイニング構造とマイニング モデルを作成するには

結果の表示

このレッスンの次の作業

関連項目

参照

概念

その他のリソース

集計予測モデルの追加 (中級者向けデータマイニングチュートリアル)

カスタムクエリまたはカスタム計算を使用してデータソースビューを作成するには

集計データを使用してマイニング構造とマイニングモデルを作成するには