メーリング対象モデルの検証 (データ マイニング チュートリアル)
プロジェクト内のモデルを処理した後は、データ マイニング デザイナの [マイニング モデル ビューア] タブにそれらのモデルを表示できます。マイニング構造の各モデルを切り替えるには、このタブの上部にある [マイニング モデル] ボックスの一覧を使用します。
ここでは、マイニング モデル ビューアでマイニング モデルを検証する方法を説明します。
- Microsoft デシジョン ツリー モデル
- Microsoft クラスタ モデル
- Microsoft Naive Bayes モデル
Microsoft デシジョン ツリー モデル
Adventure Works DM チュートリアル プロジェクトを開き、データ マイニング デザイナで [マイニング モデル ビューア] タブに切り替えると、このマイニング構造の最初のモデルであるメーリング対象マイニング モデルが表示されます。Analysis Services のどのアルゴリズムを使用してモデルを作成するかによって、それぞれ結果が異なります。したがって、Analysis Services では、アルゴリズムごとに異なるビューアが用意されています。[マイニング モデル ビューア] タブでマイニング モデルを参照するときは、そのモデルに適したビューアでモデルが表示されます。ここでは、デシジョン ツリー モデルに適した Microsoft ツリー ビューアが使用されます。このビューアには、[デシジョン ツリー] と [依存関係ネットワーク] という 2 つのタブがあります。
デシジョン ツリー
[デシジョン ツリー] タブでは、マイニング モデルを構成するすべてのツリー モデルを検証できます。このチュートリアル プロジェクトの Targeted Mailing (メーリング対象) モデルの場合、予測可能な属性は Bike Buyer だけなので、表示されるツリーも 1 つだけです。もし、ツリーが複数ある場合は、[ツリー] ボックスの一覧から別のツリーを選択できます。
既定では、ツリーの上位 3 レベルのみが Microsoft ツリー ビューアに表示されます。ツリーの階層が 3 レベル未満の場合は、既存のすべてのレベルがビューアに表示されます。表示されるレベル数を増やしたい場合は、[表示レベル] スライダまたは [既定の展開] ボックスの一覧で設定します。ビューアの構成方法については、「Microsoft ツリー ビューアを使用したマイニング モデルの表示」を参照してください。
ツリーを変更するには
[表示レベル] を 5 までスライドさせます。
[背景] ボックスの一覧から [1] を選択します。
[背景] の設定を変更すると、Bike Buyer について、状態が 1 である各ノードのケース数をすばやく確認できます。ノードの色が濃いほど、そのノードに存在するケース数が多くなります。
デシジョン ツリーの各ノードには次の情報が表示されます。
- 直前のノードからそのノードに到達するために必要な条件。ノードの完全なパスは [マイニング凡例] に表示されます。また、ノード上にマウス ポインタを置くと、そのノードに関する情報が表示されます。
- 予測可能列の状態分布を表すヒストグラム (ケース数が多い順に表示)。ヒストグラムに表示する状態の数は [ヒストグラム] ボックスで指定できます。
- 予測可能な属性の状態を [背景] ボックスで指定している場合は、そのノードにおけるケースの集中度。
ノードを右クリックして [ドリルスルー] をクリックすると、各ノードがサポートしているトレーニング ケースを確認できます。
依存関係ネットワーク
[依存関係ネットワーク] タブには、マイニング モデルの予測可能性に影響を与える各属性の相互関係が表示されます。
依存関係ネットワークの中心ノード Bike Buyer は、このマイニング モデルにおける予測可能な属性です。その周囲の各ノードは、予測可能な属性の予測結果に影響を与える属性を表しています。このタブの左側にあるスライダを使用して、表示するリンクの緊密度を指定できます。スライダを下方向に移動すると、緊密度の高いリンクのみが表示されます。
ネットワーク内のノードを 1 つずつクリックし、タブの下部に表示される色の凡例を参照すると、選択したノードがどのノードを予測するか、選択したノードがどのノードによって予測されるかを確認できます。
Microsoft クラスタ モデル
TM_Clustering モデルに切り替えるには、[マイニング モデル ビューア] タブの上部にある [マイニング モデル] ボックスの一覧を使用します。このモデルのビューア、つまり Microsoft クラスタ ビューアには、[クラスタ ダイアグラム]、[クラスタのプロファイル]、[クラスタの特性]、[クラスタの識別] という 4 つのタブがあります。このビューアを初めて開いたとき、既定では [クラスタ ダイアグラム] タブが表示されます。
Microsoft クラスタ ビューアを構成する方法については、「Microsoft クラスタ ビューアを使用したマイニング モデルの表示」を参照してください。
クラスタ ダイアグラム
[クラスタ ダイアグラム] タブでは、アルゴリズムが検出するクラスタ間の関係を検証できます。クラスタ間を結ぶ線は "緊密度" を表しており、緊密度が高いほど濃い線で表示されます。各クラスタ本体の色は、クラスタ内の変数の頻度と状態を表します。変数と状態は、ノードの上部にある [シェーディング変数] および [状態] ボックスで選択できます。既定の変数は [母集団] ですが、これをモデル内の任意の変数に変更すれば、どのクラスタのメンバに目的の属性が割り当てられているかを調べることができます。ネットワークの左側にあるスライダを使用すると、緊密度の低いリンクを非表示にし、緊密な関係にあるクラスタだけを表示することができます。
たとえば、[シェーディング変数] を [Bike Buyer] に設定し、[状態] を 1 に設定します。自転車購入者が最も集中しているのはクラスタ 5 であり、最も緊密な関係にあるのはクラスタ 4 とクラスタ 7 であることがわかります。
クラスタのプロファイル
[クラスタのプロファイル] タブには、TM_Clustering モデルの全体的なビューが表示されます。Microsoft クラスタ ビューアの [クラスタのプロファイル] タブでは、モデル内のすべてのクラスタが各列に表示されます。一番左側の列には、少なくとも 1 つのクラスタに関連付けられているすべての属性が表示されます。その他の部分には、それぞれのクラスタについて、各属性の状態の分布状況が表示されます。離散変数の分布は色分けされたバーで示され、これらのバーの最大数は [ヒストグラム バー] で指定できます。連続属性はダイアモンド グラフで示されます。このグラフでは、各クラスタの平均と標準偏差を確認できます。
クラスタの特性
[クラスタの特性] タブでは、各クラスタの特性を詳細に検証できます。たとえば、[クラスタ] ボックスの一覧を使用して、このチュートリアルで使用しているクラスタ 5 を表示すると、このクラスタに属する人、つまり過去に自転車を購入したことがある顧客は、通勤距離が 0 ~ 1 マイルであり、車を所有しておらず、既婚者であることがわかります。
クラスタの識別
[クラスタの識別] タブでは、あるクラスタと別のクラスタを識別するための特性を確認できます。[クラスタ 1] ボックスと [クラスタ 2] ボックスでそれぞれクラスタを選択すると、それら 2 つのクラスタの相違がチェックされ、違いが最も大きい属性から順に表示されます。
たとえば、TM_Clustering モデルのクラスタ 5 とクラスタ 7 を比較してみましょう。自転車の購入者はクラスタ 5 に最も多く分布し、クラスタ 7 に最も少ないことがわかります。また、クラスタ 7 は北アメリカの在住者が多く、年齢層が 23 ~ 31 才と比較的低い傾向があります。一方、クラスタ 5 はヨーロッパの在住者が多く、通勤距離が 0 ~ 1 マイルと短い傾向があります。
Microsoft Naive Bayes モデル
TM_NaiveBayes モデルに切り替えるには、[マイニング モデル ビューア] タブの上部にある [マイニング モデル] ボックスの一覧を使用します。このモデルのビューア、つまり Microsoft Naive Bayes ビューアには、[依存関係ネットワーク]、[属性のプロファイル]、[属性の特性]、[属性の識別] という 4 つのタブがあります。
Microsoft Naive Bayes ビューアを使用する方法の詳細については、「Microsoft Naive Bayes ビューアを使用したマイニング モデルの表示」を参照してください。
依存関係ネットワーク
この [依存関係ネットワーク] タブは、Microsoft ツリー ビューアの [依存関係ネットワーク] タブと同じです。ビューアの各ノードは属性を表し、ノード間を結ぶ線は関係を表します。このビューアでは、予測可能属性 Bike Buyer の状態に影響を与えるすべての属性を確認できます。
スライダを下方向に動かすと、Bike Buyer 列に最も大きな影響を与える属性のみが表示されます。消費者が自転車を購入するかどうかは、所有している車の数に最も大きく左右されることがわかります。
属性のプロファイル
[属性のプロファイル] タブは、入力属性の各状態が予測可能属性の結果にどのように影響するかを示します。
[予測可能] ボックスで、[Bike Buyer] が選択されていることを確認してください。この予測可能属性の状態に影響を与える属性の一覧が表示されます。さらに、それぞれの入力属性について、各状態の値、および予測可能属性の各状態に対する影響分布も表示されます。
属性の特性
[属性の特性] タブでは、選択した属性が選択した値をとるために、その他の属性がどの程度の確率で影響するかを確認できます。
[属性] ボックスの一覧で [Bike Buyer] を選択し、[値] ボックスの一覧で [1] を選択します。このビューアを見ると、自転車を購入する傾向が最も顕著なのは、北アメリカ地域に在住し、通勤距離が 0 ~ 1 マイルまでの人々であることがわかります。
属性の識別
[属性の識別] タブでは、選択した予測可能属性の 2 つの値とその他の属性との関係を確認できます。TM_NaiveBayes モデルには 1 と 0 の 2 つの状態しかないため、ビューアを変更する必要がありません。
このビューアでは、車を所持していない人が自転車を購入する傾向にあり、車を 2 台所有している人は自転車を購入しない傾向にあることがわかります。