デシジョン ツリー モデルの参照
参照を使用して分類モデルを開くと、Analysis Services の Microsoft デシジョン ツリー ビューアーと同様に、対話型のデシジョン ツリー ビューアーにモデルが表示されます。 ビューアーは、あるデータ グループを別のデータ グループから区別する条件を強調するグラフとして分類結果を表示します。 ツリーの個々のサブセットにドリルダウンして、基になるデータを取得することもできます。
モデルの調査
デシジョン ツリー アルゴリズムに基づくモデルは、興味深い情報を多数持っています。 [ 参照 ] ウィンドウには、グラフを使用してパターンを学習し、結果を予測するのに役立つ次のタブとペインが含まれています。
デシジョン ツリー モデルをテストするには、サンプル データ ブックの [トレーニング データ] (または [ソース データ]) タブにあるサンプル データを使用して、Bike Buyer を予測可能な属性としてデシジョン ツリー モデルを構築します。
意思決定ツリー
このビューの目的は、結果につながる要因の理解と調査に役立てることです。
デシジョン ツリー グラフは、左から右に次のように読むことができます。
ノードと呼ばれる四角形には、データのサブセットが含まれています。 ノードのラベルはそのサブセットの定義特性を示します。
[ すべて] というラベルの付いた左端のノードは、完全なデータ セットを表します。 後続のすべてのノードは、データのサブセットを表します。
デシジョン ツリーには多数の 分割が含まれています。つまり、属性に基づいてデータが複数のセットに分岐する場所です。
たとえば、サンプル モデルの最初の分割は、データセットを年齢別に 3 つのグループに分割します。
[ すべて ] ノードの直後の分割は、このデータセットを分割するプライマリ条件を示しているため、最も重要です。
その他の分割は右側に表示されます。 こうして、ツリーのさまざまなセグメントを分析することで、どの属性が購入行動に最も大きな影響を及ぼすかを知ることができます。
の
この情報を使用すると、購入を勧めるだけで実際に購入する可能性が高い顧客に対して重点的にマーケティング キャンペーンを実施することができます。
デシジョン ツリーの調査
[ すべて ] ノードをクリックし、[ マイニング凡例] を確認します。
トレーニング データ セット内のケースの正確な数と、結果の内訳が表示されます。
ノードの上にマウス カーソルを置くと、ツールヒントにも同じ情報が表示されます。
各ノードの横にあるプラス記号とマイナス記号をクリックして、ツリーを展開し折りたたみます。
[ レベルの表示 ] スライダーを使用して、ツリーを展開または縮小することもできます。
ノードには濃淡の差があります。
既定では、 網 かけ変数として Population が使用されます。つまり、色の強度によって、最もサポートされているノードが示されます。
したがって、データセット全体を含む一番左端のノードの色が最も濃くなります。
[背景] の値を [すべてのケース] から [はい] に変更します。
これで、色の濃さによって各ノードの顧客が自転車を購入した人数が示されるようになります。それが興味の対象となっている購入行動です。
各ノードには色分けされたバーがあります。 これは、このデータのサブセット内で結果の分布を示すヒストグラムです。 たとえば、サンプルの Bike Buyer デシジョン ツリーの色付きバーには、自転車を購入した顧客の割合 ([はい] の値) と、購入しなかった顧客 (値なし) が表示されます。 正確な値を取得するには、ノードをクリックして [ マイニング凡例] を表示します。
グラフを調べると、データの各サブセットがより小さなグループにさらに分解されていて、どの属性が結果の予測に最も役立つかどうかを確認できます。
網掛けの濃さを見るだけで、いくつかのグループに注目して、その詳細データを比較することができます。 たとえば、次のようなグループは自転車を購入する確率がかなり高くなっています。
Age >= 32 and < 53 and Yearly Income >= 26000 and Children = 0
合計ケース数: 1150
自転車購入者の確率: 18%
Age >= 32 and < 53 and Yearly Income >= 26000 and Children not = 0 and Marital Status = 'Single'
ケースの合計: 402
自転車購入確率: 16%
[背景] の値を [はい] から [いいえ] に変更し、グラフがどのように変化するかを確認します。
の
ヒント
データを複数のシリーズに分割できる場合、モデル化するデータ セットごとに異なるモデルが構築されます。
サンプル データ モデルでは、予測可能な結果は 1 つだけです (Bike Buyer) が、顧客がサービス プランを購入したかどうかに関する情報があり、その予測も必要だとします。 その場合、そのデータを別の列に保持して、モデルに 2 つの予測可能な属性を含めます。
デシジョン ツリー ペインの左上隅にある [ヒストグラム ] オプションをクリックして、ツリーのヒストグラムに表示できる状態の最大数を変更します。 これは、予測可能な属性に多数の状態が含まれている場合に便利です。 ヒストグラムには、状態がポピュラリティ順に左から右に表示されます。
[ デシジョン ツリー ] タブのオプションを使用して、ウィンドウに合わせてグラフを拡大または縮小したり、サイズを変更したりして、ツリーの表示方法に影響を与えることもできます。
モデル内のすべてのツリーに表示される既定のレベル数を設定するには、 [既定の展開] を使用します。
[ 長い名前の表示 ] を選択して、データ ソースを含む属性の完全な名前を表示します。 各ケースの属性と異なるデータ ソースからケースが取得されている場合を除いて、短い名前と長い名前は同じになります。
依存関係ネットワーク
[依存関係ネットワーク] ビューには、入力属性とモデル内の予測可能な属性の間の接続が表示されます。
ビューアーの左側にあるスライダーをクリックしてドラッグします
一番上の位置では、すべての接続が表示されます。 スライダーをドラッグして下げると、最も強いリンクだけが表示されます。
ここで [Bike Buyer] (自転車購入者) ノードをクリックします。
ノードを選択すると、そのノードに固有の依存関係が強調表示されます。 この場合、ビューアーでは、結果の予測に役立つ各ノードが強調表示されます。
ビューアーに多数のノードが含まれている場合は、[ノードの検索] ボタンを使用して特定の ノードを検索 できます。 [ノードの検索] をクリックすると、 [ノードの検索] ダイアログ ボックスが開き、フィルターを使用して特定のノードを検索して選択できます。
ビューアーの下部にある凡例は、グラフ内の依存関係の種類に色を関連付けています。 たとえば、予測可能なノードを選択すると、予測可能なノードが水色で網掛けされ、選択したノードを予測するノードがオレンジ色で網掛けされます。
基になるデータへのドリルスルー
いくつかの種類のモデルでは、モデルから基になるケース データに ドリルスルー する機能がサポートされています。 これは、特定のセグメントの顧客にコンタクトする場合や、データを取り出してさらに分析を実行する場合に、非常に便利な機能です。
ケース データの取得
目的のデータを含むノードを右クリックし、以下のいずれかのオプションを選択します。
ドリルスルー モデル。 このオプションは、選択したノードに属するケースを取得して、Excel のテーブルに保存します。 モデルの構築に実際に使用されたデータ列のみが取り出されます。
構造列をドリルスルーします。 このオプションは、選択したノードに属するケースを取得して、Excel のテーブルに保存します。 基になるデータで使用できたすべての情報は、モデルで列が使用されなかった場合でも取得します。 たとえば、分析には役立たないため顧客の住所と郵便番号をモデルから除外して、構造には残していた場合です。
Excel に戻ってデータを表示します。 参照ビューアーを使って、クエリを実行し、新しいワークシートのテーブルにデータを保存し、結果にラベルを付けます。
、