クラスター モデルの検証 (基本的なデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
Microsoft クラスタ リング アルゴリズムは、類似した特性を持つクラスターにケースをグループ化します。 このグループ化は、データの探索、データの異常の特定、および予測の作成に役立ちます。
Microsoft クラスター ビューアーには、クラスタリング マイニング モデルを調べるための次のタブがあります。
クラスター ダイアグラム
クラスターのプロファイル
クラスターの特性
クラスターの識別
[クラスター ダイアグラム] タブ
[クラスター ダイアグラム] タブには、マイニング モデル内のすべてのクラスターが表示されます。 クラスター間を結ぶ線は "緊密度" を表しており、緊密度が高いほど濃い線で表示されます。 各クラスター本体の色は、クラスター内の変数の頻度と状態を表します。
[クラスター ダイアグラム] タブでモデルを調査するには
使用して、 マイニング モデルの の上部にある一覧、 マイニング モデル ビューアー tab に切り替え、 TM_Clustering モデルです。
ビューアー 一覧で、[ Microsoft クラスター ビューアーします。
シェーディング変数 ボックスで、 Bike Buyerします。
既定変数は **母集団**, 、これを検出するクラスターが必要な属性を持つメンバーを含めるために、モデル内のすべての属性を変更することができますが、します。
選択 1 で、 状態 、自転車を購入した場合はそれらを表示するボックスです。
密度 凡例シェーディング変数と状態で選択した属性状態の組み合わせの密度をについて説明します。 この例ではことがわかること clusterwith 最も色の濃い網掛けが自転車購入者を最も多く消費します。
最も色の濃いクラスター上にマウス ポインターを置きます。
ツールヒントには、属性を持つケースの割合が表示されます。 Bike Buyer = 1します。
クラスターを右クリックし、選択が最も高い密度の高いクラスターを選択して クラスター名の変更 と種類 自転車購入者率高 の後で識別します。 **[OK]**をクリックします。
最も色の薄い (最も密度の低い) クラスターを見つけます。 クラスターを右クリックし、選択 クラスター名の変更 と種類 自転車購入者率低です。 **[OK]**をクリックします。
クリックして、 自転車購入者率高 クラスターし、その他のクラスターへの接続を明確に表示するように、ウィンドウの領域にドラッグします。
クラスターを選択すると、そのクラスターと別のクラスターをつなぐ線が強調表示され、このクラスターに対するすべての関係を簡単に確認できます。 クラスターが選択されていないときは、ダイアグラム内にあるすべてのクラスター間の相互関係の度合いを、線の濃さによって確認できます。 網掛けが薄いか存在しない場合は、クラスターがあまり似ていません。
ネットワークの左側にあるスライダーを使用して、緊密度の低いリンクを非表示にし、緊密な関係にあるクラスターだけを表示します。 Adventure Works Cycles のマーケティング部門は、絞り込みメール配信に最適な方法を決定する際に、類似するクラスターをまとめることができます。
トップに戻る
[クラスターのプロファイル] タブ
クラスターのプロファイル ] タブの全体的な状況では、 TM_Clustering モデルです。 クラスターのプロファイル ] タブには、モデル内の各クラスターの列が含まれています。 一番左側の列には、少なくとも 1 つのクラスターに関連付けられているすべての属性が表示されます。 その他の部分には、それぞれのクラスターについて、各属性の状態の分布状況が表示されます。 離散変数の分布は色分けされたバーに表示されるバーの最大数として表示、 [ヒストグラム バー] ] ボックスの一覧です。 連続属性はダイヤモンド グラフで示されます。このグラフでは、各クラスターの平均と標準偏差を確認できます。
[クラスターのプロファイル] タブでモデルを調査するには
設定 ヒストグラム バーに 5します。
このモデルでは、1 つの変数に対する状態の最大数が 5 になります。
場合、 マイニング凡例 の表示を妨げて、 属性のプロファイル, 、邪魔に移動します。
選択、 自転車購入者率高 列の右側にドラッグし、 母集団 列です。
選択、 自転車購入者率低 列の右側にドラッグし、 自転車購入者率高 列です。
クリックして、 自転車購入者率高 列です。
変数 列がそのクラスターの重要度順に並べ替えられます。 列をスクロールし、[自転車購入者率高] クラスターの特性を確認します。 たとえば、多くの場合、このクラスターに属する人は通勤距離が短い傾向にあります。
ダブルクリックして、 年齢 セル、 自転車購入者率高 列です。
マイニング凡例 より詳細な表示を確認しては、このようなお客様だけでなく、平均経過時間の経過時間の範囲を確認できます。
右クリックし、 自転車購入者率低 列と select 列の非表示します。
トップに戻る
[クラスターの特性] タブ
クラスターの特性 ] タブの [する特徴を調べ、さらに詳しく、クラスターを構成します。 ([クラスターのプロファイル] タブのように) すべてのクラスターの特性を比較するのではなく、一度に 1 つのクラスターを検証することができます。 例では、選択した場合の 自転車購入者率高 から、 クラスター 一覧で、このクラスターの顧客の特性を確認することができます。 [クラスターのプロファイル] ビューアーとは表示が異なりますが、結果は同じです。
注意
初期値を設定しない限り holdoutseed, 、結果は、モデルを処理するたびに異なります。 詳細については、次を参照してください HoldoutSeed 要素。
トップに戻る
[クラスターの識別] タブ
クラスターの識別 ] タブで、別の 1 つのクラスターを識別する特性を調べることができます。 2 つのクラスターから 1 つを選択した後、 クラスター 1 リスト、およびから 1 つ、 Cluster 2 ビューアー] ボックスの一覧は、クラスター間の相違点を計算し、ほとんどのクラスターを識別する属性の一覧を表示します。
[クラスターの識別] タブでモデルを調査するには
クラスター 1 ボックスで、 自転車購入者率高します。
Cluster 2 ボックスで、 自転車購入者率低です。
クリックして 変数 アルファベット順に並べ替えます。
お客様の間で重要な相違点、 自転車購入者率低 と 自転車購入者率高 クラスターには、年齢、車の所有、子供、地域の数が含まれます。
関連タスク
他のマイニング モデルを探索するには、次のトピックを参照してください。
このレッスンの次の作業
Naive Bayes モデルと #40; の表示基本的なデータ マイニングのチュートリアルと #41 です。
このレッスンの前の作業
デシジョン ツリー モデルと #40; の表示基本的なデータ マイニングのチュートリアルと #41 です。
参照
Microsoft クラスター ビューアーを使用したモデルの参照
[クラスターの識別] タブ (マイニング モデル ビューアー)
[クラスター プロファイル] タブ (マイニング モデル ビューアー)
[クラスターの特性] タブ (マイニング モデル ビューアー)
[クラスター ダイアグラム] タブ (マイニング モデル ビューアー)