デシジョン ツリー モデルの検証 (基本的なデータ マイニング チュートリアル)
Microsoft デシジョン ツリー アルゴリズムは、自転車の購入に影響する列をトレーニング セットのその他の列に基づいて予測します。
Microsoft デシジョン ツリー ビューアーには、デシジョン ツリー マイニング モデルを調べるための次のタブがあります。
デシジョン ツリー
依存関係ネットワーク
ここでは、適切なビューアーを選択してその他のマイニング モデルを検証する方法を説明します。
[デシジョン ツリー] タブ
[デシジョン ツリー] タブでは、マイニング モデルを構成するすべてのツリー モデルを検証できます。
このチュートリアル プロジェクトの絞り込みメール配信モデルの場合、予測可能な属性は Bike Buyer だけなので、表示されるツリーも 1 つだけです。 もし、ツリーが複数ある場合は、[ツリー] ボックスの一覧から別のツリーを選択できます。
デシジョン ツリー ビューアーで TM_Decision_Tree モデルを調べると、自転車の購入の予測において最も重要な要素が年齢であることがわかります。 興味深いことに、顧客を年齢でグループ化すると、ツリーの次の分岐は年齢ノードごとに異なります。 [デシジョン ツリー] タブの調査からは、車の所有台数が 0 ~ 1 台の 34 ~ 40 歳の顧客と、太平洋地域に住む車の所有台数が 0 ~ 1 台のそれより若い未婚の顧客が、自転車を購入する可能性が非常に高いという結論が得られます。
[デシジョン ツリー] タブでモデルを調査するには
データ マイニング デザイナーで、[マイニング モデル ビューアー] タブをクリックします。
既定では、その構造に追加された最初のモデルが表示されます (この場合は TM_Decision_Tree)。
虫眼鏡ボタンを使用してツリーの表示サイズを調整します。
既定では、ツリーの上位 3 レベルのみが Microsoft ツリー ビューアーに表示されます。 ツリーの階層が 3 レベル未満の場合は、既存のすべてのレベルがビューアーに表示されます。 表示されるレベル数を増やしたい場合は、[表示レベル] スライダーまたは [既定の展開] ボックスの一覧で設定します。
[表示レベル] を 4 番目のバーまでスライドさせます。
[背景] の値を 1 に変更します。
[背景] の設定を変更すると、[Bike Buyer] について、対象の値 1 を持つ各ノードのケース数をすばやく確認できます。 このシナリオでは、各ケースが顧客を表すことに注意してください。 値 1 は顧客が以前に自転車を購入したことを表し、値 0 は顧客が自転車を購入しなかったことを表します。 ノードの色が濃いほど、対象の値を持つケースの割合が高いことを示します。
"すべて" というラベルが付いたノードの上にカーソルを置きます。 ツールヒントに次の情報が表示されます。
ケースの総数
自転車を購入していないケースの数
自転車を購入したケースの数
[Bike Buyer] の値がないケースの数
そのほか、ツリーの任意のノードの上にカーソルを置いて、直前のノードからそのノードに到達するために必要な条件を表示することもできます。 同じ情報は [マイニング凡例] にも表示されます。
Age >=34 and < 41 のノードをクリックします。 ノード上の細い横棒としてヒストグラムが表示されます。ヒストグラムは、その年齢層の顧客の、以前に自転車を購入した顧客 (ピンク) と購入していない顧客 (青) の分布を表します。 ビューアーからは、車の所有台数が 0 ~ 1 台の 34 ~ 40 歳の顧客が自転車を購入する可能性が高いことがわかります。 さらに詳しく見ると、顧客の年齢が 38 ~ 40 歳の場合にはその可能性がさらに高くなることもわかります。
ここでは、構造とモデルを作成したときにドリルスルーを有効にしてあるため、モデル ケースやマイニング構造から詳細情報を取得することができます。これには、マイニング モデルには含まれていなかった列 (emailAddress や FirstName など) も含まれます。
詳細については、「ドリルスルー クエリ (データ マイニング)」を参照してください。
ケース データにドリルスルーするには
ノードを右クリックし、[ドリルスルー] をポイントして [モデル列のみ] をクリックします。
各トレーニング ケースの詳細がスプレッドシート形式で表示されます。 これらの詳細は、マイニング構造を作成するときにケース テーブルとして選択した vTargetMail ビューから取得されています。
ノードを右クリックし、[ドリルスルー] をポイントして [モデル列および構造列] をクリックします。
同じスプレッドシートの末尾に構造列が追加されて表示されます。
トップに戻る
[依存関係ネットワーク] タブ
[依存関係ネットワーク] タブには、マイニング モデルの予測可能性に影響を与える各属性の相互関係が表示されます。 依存関係ネットワーク ビューアーを使用すると、自転車の購入の予測において Age と Region が重要な要素になるという先ほどの調査結果が補強されます。
[依存関係ネットワーク] タブでモデルを調査するには
[Bike Buyer] ノードをクリックしてこのノードの依存関係を特定します。
依存関係ネットワークの中心ノード Bike Buyer は、このマイニング モデルにおける予測可能な属性です。 ピンクの網掛けは、すべての属性が自転車の購入に影響を与えることを表します。
[すべてのリンク] のスライダーを調整して、最も影響の大きい属性を特定します。
スライダーを下方向へ動かすと、[Bike Buyer] 列に最も大きな影響を与える属性のみが表示されます。 消費者が自転車を購入するかどうかの予測は、年齢と地域に最も大きく左右されることがわかります。
このレッスンの次の作業
クラスター モデルの検証 (基本的なデータ マイニング チュートリアル)
関連項目
参照
[デシジョン ツリー] タブ (マイニング モデル ビューアー)
[依存関係ネットワーク] タブ (マイニング モデル ビューアー)
概念
Microsoft ツリー ビューアーを使用したモデルの参照