次の方法で共有


クラスター モデルの参照

参照を使用してクラスタリング モデルを開くと、Analysis Services のクラスタリング ビューアーと同様に、対話型ビューアーにモデルが表示されます。 ビューアーは、作成されたクラスターを調査して、クラスターの特性を把握するのに役立ちます。 また、個々のセグメントを他のセグメントや母集団と比較対照することもできます。

モデルの調査

[ 参照 ] ウィンドウには、クラスタリング モデルを理解し、基になるデータ グループの属性を調べるのに役立つ次のツールが含まれています。

クラスタリング モデルを試すには、サンプル データ ブックの [トレーニング] タブでサンプル データを使用し、 クラスター ウィザード (Excel 用データ マイニング アドイン) とすべての既定値を使用してクラスタリング モデルを構築します。

クラスター ダイアグラム

[ クラスター ダイアグラム ] タブには、マイニング モデル内のすべてのクラスターが表示されます。 データセットに見つかった異なるグループの数、および、互いにどれぐらい近いか遠いかを確認できます。

クラスター ダイアグラムの調査
  1. ダイアグラムの [クラスター 1] をクリックします。

    すべてのクラスターを接続する灰色の線が変化して、選択したクラスターにつながる線が明るい青色で強調表示されます。

    クラスター図の概要

    クラスターを結ぶ線の濃さは、クラスターの類似性の強度を表します。 網掛けが薄いか存在しない場合は、クラスターがあまり似ていません。 線が濃くなるほど、2 つのクラスターの類似性が強いことを表します。

  2. クラスター ダイアグラムの左側にあるスライダーをドラッグすると、ビューアーに表示される線の数を調整できます。

    スライダーをドラッグして下げると、クラスター間で最も強いリンクだけが表示されます。 これは関連のあるグループを目立たせるのに役立ちます。

  3. [クラスター ダイアグラム] ウィンドウの右上隅にある [網かけ変数] コントロールに注目してください。

    既定では、Population に設定 されています。 つまり、クラスターの色が濃くなるほど、サポートが多いということです。

  4. クラスターの上にマウス カーソルを置きます。

    そのクラスターの母集団を含むツールヒントが表示されます。

  5. 次に、[ 網かけ変数 ] ドロップダウン リストをクリックし、 Age 変数を選択します。 そうすると、値の一覧が [ 状態 ] テキスト ボックスに表示されます。

    このモデルへの入力として使用される Age 列には、連続する数値が含まれていますが、クラスタリングのために、アルゴリズムによって常に数値が分離されます。 ここでは、アルゴリズムによって作成されたビンまたはグループ ("Very Low (<=27)"、"Very High (>=63)" など) を確認できます。

  6. [ 状態 ] ドロップダウン リストから [ 非常に高い ] を選択し、図がどのように変化するかを確認します。

    網掛け変数を変更することで、どのクラスターがこの対象の年齢層を多数含んでいるか、どのクラスターにこの年齢層の顧客が少ないかがひとめでわかります。

    クラスターダイアグラムを変更して経過時間を表示する

    網掛けが濃いほど、そのクラスターの対象属性の比率と値の分布が大きくなります。

  7. [シェーディング変数] が Age >65 に設定されている場合に、最も濃いシェーディングされたクラスターを見つけます。

    そのクラスターの上にマウス カーソルを合わせます。

    ツールヒントに表示される値は、このクラスターで 65 歳を超える顧客の人数です。

  8. クラスターを右クリックし、[クラスター名の変更] を選択 します65 を超えるなど、わかりやすい新しい名前を入力します。 新しい名前はモデルと共にサーバーに保存され、他のクラスター ビューでクラスターを識別するときに使用できます。

先頭に戻る

クラスターのプロファイル

[ クラスター プロファイル ] タブでは、すべてのクラスターの構成を一目で比較できます。 モデルに慣れる過程では、この機能から始めることをお勧めします。 このビューは後で、特定のクラスターの調査中に関連クラスターを見つける必要が生じた場合にも役立ちます。

クラスター プロファイル では、クラスターが相互にどのように異なるかについての概要も示されます。 そこで、このビューを使用して、各クラスターにわかりやすい名前を付けると便利です。

クラスターのプロファイルの調査
  1. [ ] 列の [職業] のセルをクリックして、職業のすべての値の一覧を表示します。

  2. クラスターのプロファイルで [Occupation] (職業) の上にマウス カーソルを移動します。

    ツールヒントに、そのクラスターの職業分布が表示されます。

    [ヒント] または [凡例] の [ヒント] または [凡例]

    一部のクラスター (図のクラスターなど) では、職業の一覧が完全ではなく、一部の職業がラベル Other に置き換えられます。

    これは仕様です。ヒストグラムで多数の小さなバーを区別するのは難しいためです。 既定では、重要度が最も高いバーのみが保持され、残りのバーは灰色の [その他] バケットにグループ化されます。

    ヒストグラムに表示されるバーの数を変更するには、[ヒストグラム バー] オプションを使用します。

  3. [年齢] 列は他の列とは異なって見える点に注意してください。 グラフで Age を表すダイヤモンドをクリックします。

    Age 列はもともと連続する数値のみを含んでいました。 クラスター アルゴリズムでは不連続値が必要であるため、Age 列の数値は、値の分布に基づいて限られた数の年齢層にグループ分けされています。

  4. クラスターのプロファイルでダイヤモンド グラフの 1 つをクリックします。

    これらのダイヤモンド グラフは、ソース データが連続する数値を使用する場合にのみ表示されます。 ダイヤモンド グラフは、各クラスターでのその値の平均値と標準偏差など、便利な統計情報を示します。

    • ダイヤモンド グラフの線は、属性の値の範囲を表します。 値は、[プロファイル] グラフの左側にある [状態] 列にも表示されます。

    • ダイヤモンドの中心は、ノードの平均値に配置されます。

    • ダイヤモンドの幅は、そのノードにおける属性の分散を表します。 そのため、ダイヤモンドの幅が狭いほど、そのノードでより正確な予測を作成できることを示します。

  5. グラフに余裕を持たないようにするには、すぐに表示する必要のないクラスターを右クリックし、[ 列の非表示] を選択します。 これにより、モデルから削除されるわけではなく、列が一時的に折りたたまれるだけです。

    非表示にしたクラスターを表示するには、列の端をクリックしてドラッグするか、一覧の [ その他のクラスター] からクラスター名を選択します。

  6. 属性一覧をスクロールして [Bike Buyer] (自転車購入者) を見つけ、[Yes] (はい) の値の割合が最も高いクラスターを見つけます。

    名前を変更するクラスターの列見出しを右クリックし、[クラスター名の 変更] を選択して、「 Bike Buyers」と入力します。

    新しいクラスター名は、モデルを再処理するまで、すべてのビューとサーバーで保持されます。

    グラフを使いやすくするためにクラスターの名前を変更する クラスター

ヒント

  • そのクラスターの属性を重要度順に並べ替えるには、列見出しをクリックします。

  • ビューアーで列の順序を変更するには、列をドラッグします。

  • プロファイル グラフ内の任意のセルをクリックすると、[ マイニング凡例] に詳細な統計情報が表示されます。

  • 任意のセルを右クリックし、[ ドリルスルー モデル列 ] を選択して、基になるデータを Excel の新しいワークシートに出力します。

  • クラスターの列見出しを右クリックし、[ドリルスルー] を選択 してデータを構造化 し、モデルに含まれていないクラスター メンバーに関する詳細情報を取得します。

    たとえば、顧客をプロファイリングする場合、連絡先情報は基になるデータ (マイニング構造) に残したまま、分析には役立たないため、モデルには含めないようにすることができます。 しかし、顧客がクラスターに割り当てられた後は、ドリルスルーを使用して詳細データを表示することができます。

先頭に戻る

クラスターの特性

[クラスターの特性] ビューでは、単一のクラスターを本格的に調査して、どの属性がこのデータ グループの最も強い特性となっているかを調べることができます。

クラスターの特性の調査
  1. [クラスター] の一覧から [Over 65 cluster]\(65 を超えるクラスター\) を選択します。

    クラスターを選択した後、そのクラスターを構成する特性を詳細に確認することができます。

    クラスターに含まれている属性は [変数] 列に表示され、属性の状態は [値] 列に表示されます。

    属性の状態は重要度順に一覧表示され、このクラスターの確率が [ 確率 ] 列の色付きバーとして表されます。

    クラスタリング モデルの特性 クラスタリング

  2. [ 変数 ] 列をクリックして、属性で並べ替えます。

    並べ替え変数を変更すると、収入や自動車所有のような変数について、グループ内での値の分布状況を簡単に確認できます。

  3. [ Excel にコピー] をクリックします

    新しいワークシートが、選択したクラスターの特性を含むブックに追加されます。

  4. 次に、一覧から別のクラスターである Bike Buyers を選択します

  5. [ Excel にコピー] をクリックします

    新しいクラスター特性グラフは、独自のワークシートに追加されます。 他のプロファイルと同じワークシートに移動して、比較しやすくすることができます。次の手順で行います。

ヒント

  • Over 65 クラスターの顧客の主な特性は、製品を購入していないことに注意してください。 この理由を知るには、クラスターを参照してグループを比較します。または、デシジョン ツリー モデルや Naïve Bayes モデルなど、因果関係の調査に適したアルゴリズムを使用して関連モデルを作成します。

  • このクラスター (またはすべてのクラスター) の属性と確率の完全な一覧を取得するには、クエリを作成します。 クラスタリング モデルに対するクエリの例については、「 クラスタリング モデル クエリの例」を参照してください。

先頭に戻る

クラスターの識別

[ クラスターの識別 ] タブを使用して、2 つのクラスター間、またはクラスターとデータ セット内の他のすべてのケースの間で属性を比較します。

このビューアーの機能を強調表示するために、[ クラスターの特性 ] ビューに基づいて作成した Excel のサイドバイサイド テーブルと比較します。

クラスターの識別の調査
  1. [クラスター 1][クラスター 2] の一覧を使用して、比較するクラスターを選択します。

    • [クラスター 1] ボックスでは [Over 65] (65 歳超) をクリックします。

    • [クラスター 2] ボックスでは、[Bike Buyers] (自転車購入者) をクリックします。

    比較結果は次の図のようになります。

    モデル内のクラスターの比較モデル内

    クラスター 識別 ビューアーは、2 つのグループを区別する上で最も重要な属性を抽出するために、複雑なクエリをデータ マイニング サーバーに送信し、2 つの顧客セットを簡単に比較することに注意してください。

  2. [ 優先 ] 列のいずれかをクリックします。

    属性と値一覧の右側にあるバーは、選択したクラスターの特性として、どの特徴または値が最も重要かを示しています。

  3. 今度は Excel で一覧を比較します。

    関連付けモデルの依存関係ネットワーク グラフ 関連付けモデル

    ビューアーで画像の作成に使用された基になる統計は、テーブルとして Excel に保存されるため、フィルターと並べ替え、実際の確率値の表示ができます。

    Excel の使用に加えて、Visio 用のクラスター ビューアーを試すことをお勧めします。データ ポイントを表示できる他に、グラフを全面的に変更し強化することもできます。 詳細については、「 クラスター ダイアグラムのチュートリアル (データ マイニング アドイン)」を参照してください。

ヒント

顧客のグループに関する分析情報を得た後、 What-If シナリオ (Table Analysis Tools for Excel) または Goal Seek Scenario (Table Analysis Tools for Excel) ツールを使用して、結果に影響を与える可能性のあるモデル内の要因を調べてみてください。

参照

Excel におけるモデルの参照 (SQL Server データ マイニング アドイン)
クラスター ウィザード (Excel 用データ マイニング アドイン)