シーケンス クラスター モデルの検証 (中級者向けデータ マイニング チュートリアル)
これで、リージョン モデルを使用したシーケンス クラスタリングの構築が済んだので、データ マイニング Designerの [マイニング モデル ビューアー] タブにある Microsoft シーケンス クラスタリング ビューアーを使用して探索できます。 Microsoft シーケンス クラスター ビューアーには、 クラスター ダイアグラム、 クラスター プロファイル、 クラスター特性、 クラスターの検出、 状態遷移の 5 つのタブがあります。 このビューアーの使用方法の詳細については、「 Microsoft シーケンス クラスター ビューアーを使用してモデルを参照する」を参照してください。
[クラスター ダイアグラム] タブ
[ クラスター ダイアグラム ] タブには、アルゴリズムによってデータベースで検出されたクラスターがグラフィカルに表示されます。 ダイアグラムのレイアウトは、類似するクラスターを緊密にグループ化したクラスターのリレーションシップを表します。 既定では、各ノードの色の濃さはクラスターに存在するケースの密度を表し、ノード色が濃くなるほど多数のケースが存在することになります。 ノードの色の濃さが各クラスター内の属性や状態のサポートを表すように、設定を変更することもできます。
目的のクラスターを簡単に識別したり操作したりできるようにクラスターの名前を変更することもできます。 このチュートリアルでは、太平洋地域の顧客の割合が最も高いクラスターと全体のケースの数が最も多いクラスターの名前を変更します。
Note
データとモデル パラメーターによっては、モデルを再処理したときに、特定のクラスターに割り当てられたケースが変更されることがあります。 また、クラスターの名前を変更した場合、それらの名前は、マイニング モデルを再処理すると失われます。
クラスターを強調表示するために使用される属性を変更するには
[ 網かけ変数 ] の一覧で、[モデル] を選択 します。
[状態] の一覧で [循環キャップ] を選択します。
ダイアグラムが更新されて、選択した製品の各クラスターにおける集中度が表示されます。 最も色の濃いクラスターに、サイクリング キャップが最も高い密度で含まれます。 網かけ変数を変更して、任意の入力列の任意の状態を使用できます。
[ 網かけ変数 ] ボックスの一覧で、[作成] を選択 します。
シェーディング変数を母集団に変更すると、ダイアグラムが更新されて、クラスターがサイズで比較されるようになります。 最も色の濃いクラスターに最も多くのケースが含まれています。
モデルのノードの名前を変更するには
[網かけ変数] を に
Region
変更し、[状態] を [太平洋] に設定します。グラフで最も色の濃いノードを強調表示させます。
このクラスターを右クリックし、[クラスター名の変更] を選択 します。
名前「Pacific Cluster」を入力します。
[網かけ変数] の値を [母集団] に変更します。
更新されたグラフで、最も色の濃いクラスター (最も大きなクラスター) を見つけます。 色の濃さからはどのクラスターが最も大きいか判断できない場合は、各クラスターの上にマウス ポインターを置いてツールヒントを確認し、最も多くのケースが含まれているクラスターを選択します。
このクラスターを右クリックし、[クラスター 名の変更] を選択します。 新しい名前 を入力します
Largest Cluster
。
クラスターを表すノードからドリルスルーして、各クラスター内のケースの詳細を表示することができます。 たとえば、顧客に電子メールを送信するなど、分析の結果に対して操作を実行する場合に便利です。 構造には含まれているがモデルでは使用されていない、ケースのその他の属性を参照することもできます (Region や IncomeGroup など)。 マイニング モデルから基になるケースへのドリルスルーの詳細については、「 ドリルスルー クエリ (データ マイニング)」を参照してください。
クラスター ダイアグラムから詳細情報にドリルスルーするには
を右クリックし、[
Pacific Cluster
ドリル スルー] を選択し、[モデル列と構造列] を選択します。[ ドリルスルー ] ダイアログ ボックスが開きます。 モデルで使用されていないが、クエリに使用できる列には、Structure というプレフィックス が付きます。
このクラスターに含まれている顧客はほとんどが太平洋地域の顧客で、その他の地域の顧客はごくわずかであることがわかります。
入れ子になった列 v Assoc Seq Line Items のプラス記号をクリックして、特定の顧客注文のアイテムのシーケンスを表示します。
[ ドリルスルー ] ダイアログ ボックスを閉じます。
Note
[再生] ボタンを使用すると、データを再クエリできます。ただし、他のプロセスによってモデルがバックグラウンドで動的に更新されていない限り、再クエリによって表示されるデータは変更されません。
[クラスターのプロファイル] タブ
[ クラスター プロファイル ] タブには、各クラスター内にあるシーケンスが表示されます。 クラスターは、[ 状態] 列の右側にある個々の列に一覧表示されます。
ビューアーの [ モデル ] 行にはクラスター内の項目の全体的な分布が記述され、[ Model.samples ] 行には項目のシーケンスが含まれています。 Model.samples 行の各セルの色シーケンスの各行は、クラスター内でランダムに選択されたユーザーの動作を表します。
シーケンス ヒストグラムでは、各製品モデルがそれぞれ異なる色で示されます。 マイニング凡例は、色分けと製品モデル名の両方を使用して製品のシーケンスを表します。 クラスターのモデルにその他の列 (Region や Income Group など) を追加した場合は、各列に対応する追加の行がビューアーに含まれます。それらの行には、各クラスター内のそれらの値の分布が表示されます。
クラスターで最も一般的なシーケンスを表示するには
クラスター
Largest Cluster
の列で [モデル] 行を右クリックし、[凡例の表示] を選択します。[色] 列には、シーケンスで見つかった項目の頻度を示す網かけのバーが含まれています。 各アイテムがそれぞれ異なる色で表されます。 [ 意味 ] 列には、各色の製品モデル名が一覧表示されます。 [ディストリビューション] 列には、このアイテムがシーケンスに含まれていたケースの割合が表示されます。
[マイニング凡例] を閉じます。
列の Model.samples 行を右クリックし、見出しである Population をクリックし、[ 凡例の表示] を選択します。
モデル全体のシーケンスの一覧をスキャンする
.
マイニング凡例では最も一般的なシーケンスが最初に表示されるため、多くのシーケンスで Mountain Tire Tube が最初のアイテムになっていることがわかります。 これは、Mountain Tire Tube を最初に買い物かごに入れる顧客が多いことを示しています。
クラスター ビューアーからケースにドリルスルーするには
属性の行が見つかるまで、[属性] ペインを下に
Region
スクロールします。この行には、モデル内の各クラスターのヒストグラムと、モデルで使用されるケースのセット全体を意味する Population の追加ヒストグラムが 1 つ含まれています。 ヒストグラムとは、さまざまな色を含むバーで、それぞれの色が属性を表し、色の付いた部分のサイズがその色の属性を持つケースの割合を表します。
と の名前を変更した
Pacific Cluster
Largest Cluster
クラスターのヒストグラムを比較します。 各クラスターはそれぞれ異なる列に表示されます。どちらも単色に見えますが、同じ色ではありません。
行で
Region
、 の色付きヒストグラムLargest Cluster
の上にマウスを置きます。各地域のケースの実際の割合を示す値がツールヒントに表示されます。
の行
Pacific Cluster
で色付きのヒストグラムをRegion
右クリックし、[ドリル スルー] を選択し、[モデル列のみ] を選択します。スクロール バーを動かして、このクラスターのすべての顧客を調べます。
詳細情報にドリルスルーした結果からは、クラスターに含まれている注文のほとんどが太平洋地域からの注文であっても、北米地域やヨーロッパ地域からの注文もわずかに含まれていることがわかります。
[ ドリルスルー ] ダイアログ ボックスを閉じます。
[クラスターの特性] タブ
[ クラスターの特性 ] タブには、選択したクラスターの属性値の重要度を視覚的に表すバーが表示され、クラスター内の状態間の遷移が要約されます。 [変数] 列には、選択したクラスターまたは母集団にとってモデルが重要であることが判明した内容 (特定の値または値間のリレーションシップ (遷移と呼ばれます) が示されます。 [値] 列には値または遷移の詳細が表示され、[確率] 列は、この属性または遷移の重みを視覚的に表します。
クラスターの重要な属性を表示するには
[ クラスター ] ドロップダウン リストで、 を選択
Pacific Cluster
します。リストが更新され、名前が 変更されたクラスターの特性が表示されます
Pacific Cluster
。 このクラスターでは、最も重要な特性は ですRegion
。の行の網掛けされたバーの上にマウス を
Region
置きます。値が Pacific である確率が非常に高いことがわかります。 これらの値を解釈する方法の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズムテクニカル リファレンス」を参照してください。
最初の遷移行が見つかるまでクラスターの特性の一覧を調べていきます。
遷移行には、 変数 列のテキスト Transition と、 Value 列のシーケンシャル属性値の組み合わせが含まれます。 [Start] や missing がシーケンスに含まれる場合もあります。
たとえば、遷移の値が [Start] -> Road Tire Tube とします。 そのクラスターの顧客がよく Road Tire Tube を最初に買い物かごに入れているということになります。 これは、その製品が顧客によって最初に探される人気のアイテムであることを示している場合もあれば、その製品がその購入サイトで見つけやすいということを示しているだけの場合もあります。
[開始] または見つからない最初の画面切り替えが見つかるまで、一覧をスクロールします。
たとえば、移行、 ツーリング タイヤ、ツーリング タイヤ チューブが見つかるとします。 そのクラスターの顧客がこれらのアイテムをよくこの順序で一緒に購入していることになります。
この遷移の色付きのバーの上にマウス ポインターを置きます。
この遷移の確率がパーセントで表示されます。
[ クラスター ] ドロップダウン リストで、[ 作成 (すべて)] を選択します。
属性の一覧が更新されて、モデルの作成に使用されたすべての注文の特性が表示されます。 このマイニング モデルでは、クラスターを区別するための最も重要な特性は です。値は
Region
北米 です。
以上の作業から、2 つのことがわかりました。 1 つは、意味のある数の組み合わせを得るためには大量のデータが必要であるということです。 たとえば、確率が最も高いシーケンスには 、[Start] または Missing 状態が含まれる可能性があります。
2 つ目は、 の属性 Region
に対して強力なクラスタリング効果があるため、シーケンスのグループを見るのがより困難になるということです。 したがって、地域や収入の列を含まない、シーケンスのみを使用する別のモデルを作成することにします。
[クラスターの識別] タブ
[ クラスターの識別 ] タブを使用すると、2 つのクラスターを比較して、特定のクラスターと別のクラスターを区別する属性を判断できます。 タブには、 変数、 値、 クラスター 1、クラスター 2 の 4 つの列が含 まれています。 クラスター 1 とクラスター 2 として使用する任意のクラスターを選択できます。
[変数] 列には属性の名前が表示されます。列名または列名と切り替えという単語の組み合わせを指定できます。 [値] 列には、属性または遷移の正確な値が表示されます。 クラスター 1 とクラスター2 の列の網掛けされたバーは、比較するクラスター内の属性の強度を示します。 バーが長いほど、その属性を持つケースがクラスターに含まれる可能性が高くなります。
[クラスターの識別] タブを使用して 2 つのクラスターを比較するには
[ クラスターの識別 ] タブの [ クラスター 1] で、 を選択します
Pacific Cluster
。既定では、 クラスター 2 の選択は [ 太平洋クラスターの補数] に変わります。
他のすべてのケースと区別する最上位の
Pacific Cluster
属性は、リージョンです。 地域がクラスター化のための属性として強力すぎるために、他の属性がわかりにくくなっています。 この影響を回避するために、いくつかの小さなクラスターを互いに比較してみます。 そうすれば、属性の一覧が変更されて、モデル間の遷移がより多く含まれるようになる可能性があります。遷移行を見つけて、色付きのバーの上にマウス ポインターを置きます。
[値] 列の項目には、状態と遷移の両方を含めることができます。 各アイテムの色は識別スコアを表します。 さまざまなスコアの意味の詳細については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
[状態遷移] タブ
[ 状態遷移 ] タブでは、クラスターを選択し、その状態遷移を参照できます。 クラスターのドロップダウン リストから [ 作成 (すべて)] を選択した場合、ダイアグラムにはマイニング モデル全体の状態の分布が表示されます。
グラフの各ノードは、分析しようとしているシーケンスの状態または使用可能な値を表します。 ノードの背景色は、その状態の頻度を表します。 一部の状態を結ぶ線は、状態間の遷移を表します。 スライダーを上下に動かして、遷移の確率のしきい値を変更することもできます。 一部のノードに関連付けられている数値は、その状態の確率を表します。
[状態遷移] タブで関係を調査するには
マイニング モデル ビューアーの [ 状態遷移 ] タブで、クラスターの一覧から を選択
Pacific Cluster
します。 [ エッジ ラベルの表示 ] オプションが選択されていることを確認します。グラフが更新されて、このクラスターで最も一般的な遷移が表示されます。
別のノードと線で結ばれている任意のノードをクリックします。
グラフが更新されて、関連するノードが強調表示されます。 線の横の数値はその遷移の確率を表します。
スライダーを [ すべてのリンク] まで上げて、グラフに含まれる切り替えの数を増やします。
[クラスター] から [ 作成 (すべて)]を選択します。
別のクラスターを読み込むとグラフが既定の表示設定にリセットされるため、スライダー コントロールが中央の位置に戻ります。
グラフ内で最も暗いノードをクリックします。 これは Sport-100 である必要があります。
この製品を他の製品と結ぶ線はありません。
スライダーを 1 段階上に動かして、グラフに含まれる遷移の数を増やします。 まだ すべてのリンク に移動しないでください。
グラフが更新されていくつかの遷移が追加されますが、Sport-100 モデルを含む遷移はありません。
スライダー コントロールを [すべてのリンク] まで移動します。 まだ選択されていない場合は、Sport-100 ノードをクリックします。
グラフが更新されて、Sport-100 という製品を含む多数の遷移が表示されます。 ノードを結ぶ線の矢印の向きは、Sport-100 がペアの 1 つ目のアイテムとして選択されたか 2 つ目のアイテムとして選択されたかを表します。
Touring Tire のノードをクリックし、スライダー コントロールを中央の位置まで戻します。
最初はツーリングタイヤと他の製品を結ぶ遷移線が多いですが、確率しきい値を上げると、切り替えの可能性が低くなり、遷移のツーリングタイヤ > ツーリングタイヤチューブだけが残ります。 この遷移は、顧客が Touring Tire を買い物かごに入れた場合、その次に Touring Tire Tube をかごに入れる確率が高いことを示しています。
汎用コンテンツ ツリー ビューアー
このビューアーは、アルゴリズムやモデルの種類に関係なく、すべてのモデルで使用できます。 MicrosoftGeneric コンテンツ ツリー ビューアーは、[ビューアー] ドロップダウン リストから使用できます。
コンテンツ ツリーは、マイニング モデルを一連のノードで表したものです。各ノードは、トレーニング データに関する学習済みの知識を表します。 ノードには、いくつかの属性が共通するパターン、一連のルール、クラスター、または日付範囲の定義を含めることができます。 ノードの正確な内容はアルゴリズムや予測可能な属性に応じて変わりますが、内容の全体的な表示は同じです。
各ノードを展開して、より詳細なレベルで表示したり、任意のノードの内容をクリップボードにコピーしたりできます。 詳細については、「 Microsoft 汎用コンテンツ ツリー ビューアーを使用したモデルの参照」をご覧ください。
汎用コンテンツ ツリー ビューアーを使用してシーケンス クラスター モデルの詳細を表示するには
[ マイニング モデル ビューアー ] タブで、[ ビューアー ] の一覧をクリックし、[ Microsoft 汎用コンテンツ ツリー ビューアー] を選択します。
[ ノード キャプション ] ウィンドウで、 をクリックします
Pacific Cluster (1)
。このノードの名前には、クラスターに割り当てた表示名と、基になるノード ID の両方が含まれています。 ノード ID を使用してモデルの詳細にドリル ダウンできます。
クラスター 1 のシーケンス レベルという名前の最初の子ノードを展開します。
クラスターのシーケンス レベル ノードには、そのクラスターに含まれる状態と遷移の詳細が含まれています。 これらの詳細 (NODE_DISTRIBUTION 列に表示されます) を使用して、各クラスターまたはモデル全体のシーケンスと状態を調査することができます。
ノードをさらに展開して、HTML ビューアー ペインに詳細を表示します。
マイニング モデルのコンテンツの詳細と、ビューアーで詳細を使用する方法については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
このレッスンの次の作業
関連するシーケンス クラスター モデルの作成 (中級者向けデータ マイニング チュートリアル)
参照
Microsoft シーケンス クラスタリング アルゴリズム
Sequence Clustering Model Query Examples