予測モデルの検証 (中級者向けデータ マイニング チュートリアル)
予測マイニング モデルを構築したら、データ マイニング Designerの [マイニング モデル ビューアー] タブを使用して結果を調べることができます。 Microsoft Time Series Viewer には、 グラフ と モデルの 2 つのタブが含まれています。
また、すべてのモデルで Microsoft 汎用ツリー ビューアーを使用できます。 それぞれのビューに、時系列モデルの情報が少しずつ異なる方法で表示されます。
[グラフ] タブ
Microsoft Time Series Viewer の [ グラフ ] タブには、履歴データや予測など、各系列がグラフィカルに表示されます。 時系列グラフのそれぞれの線は、製品、地域、および予測可能な属性の一意の組み合わせを表します。
ビューアーの右側の凡例には、ドロップダウン リストでの選択に基づいて、選択可能なすべての時系列が表示されます。 凡例で、これらのチェック ボックスをオンまたはオフにして、グラフに表示する時系列を指定できます。
各時系列に対して使用する色などの表示オプション、またはグラフの点に値を表示するかどうかを変更することもできます。
時系列を選択するには
[マイニング モデル ビューアー] タブの [グラフ] タブをクリックします (表示されない場合)。
グラフ ビューの右側にあるドロップダウン リストをクリックし、すべてのチェック ボックスをオンにします。 [OK] をクリックします。
グラフに 24 本の異なる系列線が表示されます。
グラフの右側にあるチェック ボックスで、ボックスをオフにして、Amount に基づくすべての系列の線を一時的に非表示にします。
次に、R750 と R250 という自転車に関連するチェック ボックスをオフにします。
これで、グラフに含まれる系列線は次の 6 つだけになるため、M200 と T1000 という自転車の傾向を比較しやすくなります。
M200 Europe: Quantity
M200 North America: Quantity
M200 Pacific: Quantity
T1000 Europe: Quantity
T1000 North America: Quantity
T1000 Pacific: Quantity
を
このビューアーに表示されるグラフには、履歴データと予測データの両方が含まれます。 履歴データと区別できるよう、予測データの部分は網掛けされています。 個々の系列を比較しやすくするために、グラフのそれぞれの線に関連付けられている色を変更することもできます。 詳細については、「 データ マイニング ビューアーで使用する色の変更」を参照してください。
これらの傾向線からは、どの地域でも総売上がしだいに増加しており、12 か月目 (つまり 12 月) でピークに達していることがわかります。 またグラフから、T1000 という自転車のデータが他の製品系列のデータより大幅に遅れて始まっていることもわかります。 これは、この製品が新しい製品であるためです。この系列については、基になるデータが十分でないため、正確な予測が得られない可能性があります。
既定では、各時系列について、5 つの予測期間分の予測が点線で表示されます。 この値を変更して、表示する予測を増減することもできます。 グラフに誤差範囲を追加することで、予測の標準偏差をグラフィカルに表示することもできます。
グラフ ビューの予測オプションと表示オプションを変更するには
予測ステップの値を徐々に変更し、5 から 10 に増やしてから、6 に戻してみてください。
履歴データの変動幅が大きい場合は、予測の数を増やすと変動が繰り返される傾向にあり、増幅されることもあります。 多くの場合、この時点である程度の調査が必要になります。この調査で、履歴データの大幅な増加の原因を特定し、それらの結果をそのまま使用するか、ソース データに修正する箇所がないかどうかを探すか、モデルの線をいずれかの方法で滑らかにするかを判断することになります。
[偏差の表示] チェックボックスを選択します。
このオプションをオンにすると、それぞれの予測値について、推定される誤差が表示されます。
X 軸のスケールを確認します。 履歴データと予測データの変化はどちらも常に比率で表されますが、実際の値はグラフにすべての値が表示されるように自動的に調整されます。 そのため、モデルを比較するときは、視覚的な見た目だけに頼らないように注意が必要です。 正確な値、または予測の増加率と値を取得するには、点線または実線の上にマウスポインターを置くか、線をクリックして [マイニング凡例] に値を表示します。
ヒント: [マイニング凡例 ] が表示されていない場合は、[ モデル ] ビューに切り替え、任意のノードを右クリックして、[ 凡例の表示] を選択します。
これらの傾向を見て、一部の系列のデータが十分でないことが気になるときは、モデル別の売上の平均 (地域別の売上の平均など) を求めて予測の信頼性を高めることもできます。 この方法については、このチュートリアルのレッスンで後ほど説明します。
[モデル] タブ
データ マイニング Designerの Microsoft Time Series Viewer の [モデル] タブでは、ツリー グラフの形式で予測モデルを表示できます。
最初に注目する点は、ここで使用しているデータでは、複数の製品ライン (T1000 など) について、売上を示すメジャーがそれぞれ 2 つ (Amount と Quantity) あり、地域がそれぞれ 3 つ (ヨーロッパ、北米、および太平洋) に分かれているため、作成したモデルは実質的に 24 個のツリーで構成されているということです。それらの各ツリーが、地域、製品、および予測可能な属性の組み合わせがそれぞれ異なる売上パターンのモデルを表しています。
[モデル] タブの [ツリー] ドロップダウン リストから系列を選択することで、表示する製品ライン、リージョン、および販売メトリックの組み合わせを選択できます。
ここで、モデルをツリーとして表示すると何がわかるか考えてみましょう。 例として、ツリー内に複数のレベルを持つモデルと、1 つのノードを持つ 2 つのモデルを比較してみましょう。
ツリー グラフのノードが 1 つだけの場合は、モデルで検出された傾向が時間の経過によってほとんど変化しないことを意味します。 [ すべて] というラベルの付いたこの 1 つのノードを使用して、入力変数と結果の関係を説明する数式を表示できます。
時系列のツリー グラフに複数の分岐がある場合は、検出された時系列が複雑すぎて、1 つの式では表せないことを意味します。 代わりに、ツリー グラフには複数の分岐が含まれる場合があります。各分岐には、ツリーが分割される原因となった条件でラベルが付 けられます。 ツリーが分割されている場合、各分岐はそれぞれの時間の単位を表し、その時間単位ごとに 1 つの式で傾向を表すことができます。
たとえば、グラフ グラフを見て、9 月のいつか始まり、年末の休日を通して販売数量が急激に増加する場合は、[ モデル ] ビューに切り替えて、傾向が変化した正確な日付を確認できます。 ツリー内の "9 月より前" と "9 月以降" を表す分岐には、分割までの売上傾向を数学的に記述する数式と、9 月から年末の祝日までの売上傾向を表す別の数式など、さまざまな数式が含まれます。
時系列モデルに対応するデシジョン ツリーを調査するには
ビューアーの [モデル] タブの [ツリー] の一覧で、T1000 Europe: Amount シリーズを選択します。
[ すべて] というラベルの付いたノードをクリックします。
[すべて] ノードの場合、表示されるツールヒントには、系列全体のケースの数、データの分析から派生した時系列数式などの情報が含まれます。
[マイニング凡例] が表示されない場合は、ノードを右クリックし、[凡例の表示] を選択します。
[マイニング凡例] には、ツールヒントとほとんど同じ情報が表示されます。 不連続な独立変数がある場合は、ノード内の変数の分布を示すヒストグラムも表示されます。
次に、別の時系列を選択して表示します。 ビューアーの [モデル] タブの [ツリー] リストを使用して、M200 北米: Amount シリーズを選択します。
ツリー グラフに All ノードと 2 つの子ノードが含まれるようになりました。 子ノードのラベルから、どの時点で傾向線が変化したか確認できます。
子ノードごとに、 マイニング凡例 の説明には、ツリーの各分岐のケースの数も含まれます。
ツリー ビューアーには、ほかにも次のような機能があります。
[ 背景 ] コントロールを使用して、グラフで表される変数を変更できます。 既定では、[ 背景] の値が [作成] に設定されているため、暗いノードにはより多くのケースが含まれます。 ノードに存在するケースの数だけを確認するには、ノードの上にマウスを置いて表示されるツールヒントを表示するか、ノードをクリックして [ ノードの凡例 ] ウィンドウに番号を表示します。
ツールヒントにはノードの回帰式も表示されます。これについても、ノードをクリックして確認することもできます。 混合モデルを作成した場合は、ARIMA の式 (リーフ ノード内) と ARTXP の式 (ツリーのルート ノード内) の 2 つが表示されます。
ノードでは、連続する数値が小さなひし形で表されます。 属性の範囲は、そのひし形が示されたバーに表示されます。 このひし形はノードの中間にあり、ひし形の幅がそのノードの属性の分散を表します。
(オプション) 汎用コンテンツ ツリー ビューアー
Analysis Services には、時系列のカスタム ビューアーに加えて、すべてのデータ マイニング モデルで使用できる MicrosoftGeneric コンテンツ ツリー ビューアー が用意されています。 このビューアーには、次のような利点があります。
Microsoft Time Series Viewer: このビューでは、2 つのアルゴリズムの結果がマージされます。 各系列を別々に表示することもできますが、その場合、各アルゴリズムの結果がどのように結合されたかを判別できません。 また、このビューでは、ツールチップと [マイニング凡例] に重要な統計情報だけが表示されます。
汎用コンテンツ ツリー ビューアー: モデルで使用されていたすべてのデータ系列を一度に参照して表示できます。混合モデルを作成した場合は、ARIMA ツリーと ARTXP ツリーの両方が同じグラフに表示されます。
このビューアーを使用すると、両方のアルゴリズムからすべての統計情報を取得できるだけでなく、値の分布も確認できます。
ARIMA と ARTXP の分析について詳しく調べたい場合など、データ マイニングの上級ユーザー向けのビューアーです。
汎用コンテンツ ビューアーで特定のデータ系列の詳細を表示するには
[マイニング モデル ビューアー] タブで、[ビューアー] ドロップダウン リストから [Microsoft 汎用コンテンツ ツリー ビューアー] を選択します。
[ ノード キャプション ] ウィンドウで、一番上の (すべて) ノードをクリックします。
[ ノードの詳細 ] ウィンドウで、ATTRIBUTE_NAMEの値を表示します。
この値から、このノードにどの系列 (製品と地域の組み合わせ) が含まれているかがわかります。 AdventureWorks の例では、最上位ノードは M200 Europe 系列のノードです。
[ ノード キャプション ] ウィンドウで、子ノードを持つ最初のノードを見つけます。
系列ノードに子がある場合、Microsoft Time Series Viewer の [ モデル ] タブに表示されるツリー ビューも分岐構造になります。
ノードを展開し、いずれかの子ノードをクリックします。
スキーマの NODE_DESCRIPTION 列に、ツリーが分割される原因になった条件が含まれています。
[ ノード キャプション ] ウィンドウで、一番上の ARIMA ノードをクリックし、すべての子ノードが表示されるまでノードを展開します。
[ ノードの詳細 ] ウィンドウで、ATTRIBUTE_NAMEの値を表示します。
この値から、このノードに含まれている時系列がわかります。 ARIMA セクションの最上位ノードは [(すべて)] セクションの最上位ノードと一致するはずです。 AdventureWorks の例では、このノードには M200 Europe 系列に対する ARIMA 分析が含まれています。
詳細については、「 タイム シリーズ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
このレッスンの次の作業
時系列予測の作成 (中級者向けデータ マイニング チュートリアル)
参照
Time Series Model Query Examples
Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス