デシジョンツリーモデルの検証 (基本的なデータマイニングチュートリアル)

[アーティクル]
05/07/2013

Microsoft デシジョンツリーアルゴリズムは、自転車の購入に影響する列をトレーニングセットのその他の列に基づいて予測します。

Microsoft デシジョンツリービューアーには、デシジョンツリーマイニングモデルを調べるための次のタブがあります。

デシジョンツリー

依存関係ネットワーク

ここでは、適切なビューアーを選択してその他のマイニングモデルを検証する方法を説明します。

[デシジョンツリー] タブ

[デシジョンツリー] タブでは、マイニングモデルを構成するすべてのツリーモデルを検証できます。

このチュートリアルプロジェクトの絞り込みメール配信モデルの場合、予測可能な属性は Bike Buyer だけなので、表示されるツリーも 1 つだけです。もし、ツリーが複数ある場合は、[ツリー] ボックスの一覧から別のツリーを選択できます。

デシジョンツリービューアーで TM_Decision_Tree モデルを調べると、自転車の購入の予測において最も重要な要素が年齢であることがわかります。興味深いことに、顧客を年齢でグループ化すると、ツリーの次の分岐は年齢ノードごとに異なります。 [デシジョンツリー] タブの調査からは、車の所有台数が 0 ～ 1 台の 34 ～ 40 歳の顧客と、太平洋地域に住む車の所有台数が 0 ～ 1 台のそれより若い未婚の顧客が、自転車を購入する可能性が非常に高いという結論が得られます。

[デシジョンツリー] タブでモデルを調査するには

データマイニングデザイナーで、[マイニングモデルビューアー] タブをクリックします。

既定では、その構造に追加された最初のモデルが表示されます (この場合は TM_Decision_Tree)。
虫眼鏡ボタンを使用してツリーの表示サイズを調整します。

既定では、ツリーの上位 3 レベルのみが Microsoft ツリービューアーに表示されます。ツリーの階層が 3 レベル未満の場合は、既存のすべてのレベルがビューアーに表示されます。表示されるレベル数を増やしたい場合は、[表示レベル] スライダーまたは [既定の展開] ボックスの一覧で設定します。
[表示レベル] を 4 番目のバーまでスライドさせます。
[背景] の値を 1 に変更します。

[背景] の設定を変更すると、[Bike Buyer] について、対象の値 1 を持つ各ノードのケース数をすばやく確認できます。このシナリオでは、各ケースが顧客を表すことに注意してください。値 1 は顧客が以前に自転車を購入したことを表し、値 0 は顧客が自転車を購入しなかったことを表します。ノードの色が濃いほど、対象の値を持つケースの割合が高いことを示します。
"すべて" というラベルが付いたノードの上にカーソルを置きます。ツールヒントに次の情報が表示されます。
- ケースの総数
- 自転車を購入していないケースの数
- 自転車を購入したケースの数
- [Bike Buyer] の値がないケースの数
そのほか、ツリーの任意のノードの上にカーソルを置いて、直前のノードからそのノードに到達するために必要な条件を表示することもできます。同じ情報は [マイニング凡例] にも表示されます。
Age >=34 and < 41 のノードをクリックします。ノード上の細い横棒としてヒストグラムが表示されます。ヒストグラムは、その年齢層の顧客の、以前に自転車を購入した顧客 (ピンク) と購入していない顧客 (青) の分布を表します。ビューアーからは、車の所有台数が 0 ～ 1 台の 34 ～ 40 歳の顧客が自転車を購入する可能性が高いことがわかります。さらに詳しく見ると、顧客の年齢が 38 ～ 40 歳の場合にはその可能性がさらに高くなることもわかります。

ここでは、構造とモデルを作成したときにドリルスルーを有効にしてあるため、モデルケースやマイニング構造から詳細情報を取得することができます。これには、マイニングモデルには含まれていなかった列 (emailAddress や FirstName など) も含まれます。

詳細については、「ドリルスルークエリ (データマイニング)」を参照してください。

ケースデータにドリルスルーするには

ノードを右クリックし、[ドリルスルー] をポイントして [モデル列のみ] をクリックします。

各トレーニングケースの詳細がスプレッドシート形式で表示されます。これらの詳細は、マイニング構造を作成するときにケーステーブルとして選択した vTargetMail ビューから取得されています。
ノードを右クリックし、[ドリルスルー] をポイントして [モデル列および構造列] をクリックします。

同じスプレッドシートの末尾に構造列が追加されて表示されます。

トップに戻る

[依存関係ネットワーク] タブ

[依存関係ネットワーク] タブには、マイニングモデルの予測可能性に影響を与える各属性の相互関係が表示されます。依存関係ネットワークビューアーを使用すると、自転車の購入の予測において Age と Region が重要な要素になるという先ほどの調査結果が補強されます。

[依存関係ネットワーク] タブでモデルを調査するには

[Bike Buyer] ノードをクリックしてこのノードの依存関係を特定します。

依存関係ネットワークの中心ノード Bike Buyer は、このマイニングモデルにおける予測可能な属性です。ピンクの網掛けは、すべての属性が自転車の購入に影響を与えることを表します。
[すべてのリンク] のスライダーを調整して、最も影響の大きい属性を特定します。

スライダーを下方向へ動かすと、[Bike Buyer] 列に最も大きな影響を与える属性のみが表示されます。消費者が自転車を購入するかどうかの予測は、年齢と地域に最も大きく左右されることがわかります。

このレッスンの次の作業

クラスターモデルの検証 (基本的なデータマイニングチュートリアル)

次の方法で共有

デシジョンツリーモデルの検証 (基本的なデータマイニングチュートリアル)

[デシジョンツリー] タブ

[デシジョンツリー] タブでモデルを調査するには

ケースデータにドリルスルーするには

[依存関係ネットワーク] タブ

[依存関係ネットワーク] タブでモデルを調査するには

このレッスンの次の作業

関連項目

参照

概念

その他の技術情報

その他のリソース

次の方法で共有

デシジョン ツリー モデルの検証 (基本的なデータ マイニング チュートリアル)

[デシジョン ツリー] タブ

[デシジョン ツリー] タブでモデルを調査するには

ケース データにドリルスルーするには

[依存関係ネットワーク] タブ

[依存関係ネットワーク] タブでモデルを調査するには

このレッスンの次の作業

関連項目

参照

概念

その他の技術情報

その他のリソース

デシジョンツリーモデルの検証 (基本的なデータマイニングチュートリアル)

[デシジョンツリー] タブ

[デシジョンツリー] タブでモデルを調査するには

ケースデータにドリルスルーするには