シーケンス クラスター モデルの検証 (中級者向けデータ マイニング チュートリアル)
前の作業では Sequence Clustering with Region モデルを作成しました。次は、データ マイニング デザイナーの [マイニング モデル ビューアー] タブを開き、Microsoft シーケンス クラスター ビューアーを使用してこのモデルを検証します。 Microsoft シーケンス クラスター ビューアーには、[クラスター ダイアグラム]、[クラスターのプロファイル]、[クラスターの特性]、[クラスターの識別]、[状態遷移] という 5 つのタブがあります。 このビューアーの使用法の詳細については、「Microsoft シーケンス クラスター ビューアーを使用したモデルの参照」を参照してください。
[クラスター ダイアグラム] タブ
[クラスターのプロファイル] タブ
[クラスターの特性] タブ
[クラスターの識別] タブ
[状態遷移] タブ
汎用コンテンツ ツリー ビューアー
[クラスター ダイアグラム] タブ
[クラスター ダイアグラム] タブには、アルゴリズムによりデータベースから検出されたクラスターがグラフィカルに表示されます。 ダイアグラムのレイアウトは、類似するクラスターを緊密にグループ化したクラスターのリレーションシップを表します。 既定では、各ノードの色の濃さはクラスターに存在するケースの密度を表し、ノード色が濃くなるほど多数のケースが存在することになります。 ノードの色の濃さが各クラスター内の属性や状態のサポートを表すように、設定を変更することもできます。
目的のクラスターを簡単に識別したり操作したりできるようにクラスターの名前を変更することもできます。 このチュートリアルでは、太平洋地域の顧客の割合が最も高いクラスターと全体のケースの数が最も多いクラスターの名前を変更します。
注 |
---|
データとモデル パラメーターによっては、モデルを再処理したときに、特定のクラスターに割り当てられたケースが変更されることがあります。 また、クラスターの名前を変更した場合、それらの名前は、マイニング モデルを再処理すると失われます。 |
クラスターを強調表示するために使用される属性を変更するには
[シェーディング変数] ボックスの一覧で、[Model] を選択します。
[状態] ボックスの一覧で、[Cycling Cap] を選択します。
ダイアグラムが更新されて、選択した製品の各クラスターにおける集中度が表示されます。 最も色の濃いクラスターに、サイクリング キャップが最も高い密度で含まれます。 シェーディング変数は、任意の入力列の任意の状態を使用するように変更できます。
[シェーディング変数] ボックスの一覧で、[母集団] を選択します。
シェーディング変数を母集団に変更すると、ダイアグラムが更新されて、クラスターがサイズで比較されるようになります。 最も色の濃いクラスターに最も多くのケースが含まれています。
モデルのノードの名前を変更するには
[シェーディング変数] を [Region] に変更し、[状態] を [Pacific] に設定します。
グラフで最も色の濃いノードを強調表示させます。
そのクラスターを右クリックして、[クラスター名の変更] をクリックします。
名前として「Pacific Cluster」と入力します。
[シェーディング変数] の値を [母集団] に変更します。
更新されたグラフで、最も色の濃いクラスター (最も大きなクラスター) を見つけます。 色の濃さからはどのクラスターが最も大きいか判断できない場合は、各クラスターの上にマウス ポインターを置いてツールヒントを確認し、最も多くのケースが含まれているクラスターを選択します。
そのクラスターを右クリックして、[クラスター名の変更] をクリックします。 新しい名前として「Largest Cluster」と入力します。
クラスターを表すノードからドリルスルーして、各クラスター内のケースの詳細を表示することができます。 たとえば、顧客に電子メールを送信するなど、分析の結果に対して操作を実行する場合に便利です。 構造には含まれているがモデルでは使用されていない、ケースのその他の属性を参照することもできます (Region や IncomeGroup など)。 マイニング モデルから基になるケースへのドリルスルーの詳細については、「ドリルスルー クエリ (データ マイニング)」を参照してください。
クラスター ダイアグラムから詳細情報にドリルスルーするには
Pacific Cluster を右クリックし、[ドリルスルー] をポイントして [モデル列および構造列] をクリックします。
[ドリルスルー] ダイアログ ボックスが開きます。 モデルに使用されていなくてもクエリを実行することはできる列には、名前の先頭に "Structure" が付いています。
このクラスターに含まれている顧客はほとんどが太平洋地域の顧客で、その他の地域の顧客はごくわずかであることがわかります。
入れ子になった列 v Assoc Seq Line Items のプラス記号をクリックして、特定の顧客注文のアイテムのシーケンスを表示します。
[ドリルスルー] ダイアログ ボックスを閉じます。
注 [再生] ボタンを使用すると、データのクエリを再実行できます。ただし、クエリを再実行しても、バックグラウンドで他のプロセスによってモデルが動的に更新されていない限り、表示されるデータは変わりません。
トップに戻る
[クラスターのプロファイル] タブ
[クラスターのプロファイル] タブには、各クラスター内のシーケンスが表示されます。 [状態] 列の右側の各列には、クラスターが一覧表示されます。
このビューアーの Model 行は、クラスター内におけるアイテムの全体的な分布を表しています。Model.samples 行は、アイテムのシーケンスを表しています。 Model.samples 行の各セルに表示されるカラー シーケンスは、そのクラスターでランダムに選択されたユーザーの動向を表します。
シーケンス ヒストグラムでは、各製品モデルがそれぞれ異なる色で示されます。 マイニング凡例は、色分けと製品モデル名の両方を使用して製品のシーケンスを表します。 クラスターのモデルにその他の列 (Region や Income Group など) を追加した場合は、各列に対応する追加の行がビューアーに含まれます。それらの行には、各クラスター内のそれらの値の分布が表示されます。
クラスターで最も一般的なシーケンスを表示するには
クラスター Largest Cluster の列の [Model] 行を右クリックし、[凡例の表示] をクリックします。
[色] 列には、シーケンス内でアイテムが見つかった頻度を表す色付きのバーが含まれます。 各アイテムがそれぞれ異なる色で表されます。 [意味] 列には、それぞれの色に対する製品モデル名が表示されます。 [ディストリビューション] 列には、そのアイテムがシーケンスに含まれていたケースの割合が表示されます。
[マイニング凡例] を閉じます。
[母集団] という見出しが付いた列の [Model.samples] 行を右クリックし、[凡例の表示] をクリックします。
モデル全体のシーケンスの一覧を確認します。
マイニング凡例では最も一般的なシーケンスが最初に表示されるため、多くのシーケンスで Mountain Tire Tube が最初のアイテムになっていることがわかります。 これは、Mountain Tire Tube を最初に買い物かごに入れる顧客が多いことを示しています。
クラスター ビューアーからケースにドリルスルーするには
Region 属性の行が見つかるまで [属性] ペインをスクロールします。
この行には、モデル内の各クラスターのヒストグラムと、モデルで使用されているケースのセット全体を表す [母集団] のヒストグラムが含まれています。 ヒストグラムとは、さまざまな色を含むバーで、それぞれの色が属性を表し、色の付いた部分のサイズがその色の属性を持つケースの割合を表します。
名前を Pacific Cluster に変更したクラスターと Largest Cluster に変更したクラスターのヒストグラムを比較します。 各クラスターはそれぞれ異なる列に表示されます。
どちらも単色に見えますが、同じ色ではありません。
Region 行で、Largest Cluster のカラー ヒストグラムの上にマウス ポインターを置きます。
各地域のケースの実際の割合を示す値がツールヒントに表示されます。
Pacific Cluster の Region 行のカラー ヒストグラムを右クリックし、[ドリルスルー] をポイントして [モデル列のみ] をクリックします。
スクロール バーを動かして、このクラスターのすべての顧客を調べます。
詳細情報にドリルスルーした結果からは、クラスターに含まれている注文のほとんどが太平洋地域からの注文であっても、北米地域やヨーロッパ地域からの注文もわずかに含まれていることがわかります。
[ドリルスルー] ダイアログ ボックスを閉じます。
トップに戻る
[クラスターの特性] タブ
[クラスターの特性] タブでは、選択されたクラスターの属性値の重要度を視覚的に表現するバーを表示することで、クラスターにおける状態間の遷移の概要が示されます。 [変数] 列からは、選択したクラスターや母集団で何がモデルによって重要として検出されたのかがわかります (特定の値または値の間の関係 (遷移))。 [値] 列には、値または遷移の詳細が表示されます。[確率] 列には、その属性または遷移の重要度が視覚的に表示されます。
クラスターの重要な属性を表示するには
[クラスター] ボックスの一覧で、Pacific Cluster を選択します。
一覧が更新されて、名前を Pacific Cluster に変更したクラスターの特性が表示されます。 このクラスターの最も重要な特性は Region です。
Region の行の色付きのバーの上にマウス ポインターを置きます。
値が Pacific である確率が非常に高いことがわかります。 これらの値の意味の詳細については、「Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」を参照してください。
最初の遷移行が見つかるまでクラスターの特性の一覧を調べていきます。
遷移行では、[変数] 列には "Transition" というテキストが、[値] 列には何らかの連続する属性値の組み合わせが含まれます。 [Start] や missing がシーケンスに含まれる場合もあります。
たとえば、遷移の値が "[Start] -> Road Tire Tube" だった場合は、 そのクラスターの顧客がよく Road Tire Tube を最初に買い物かごに入れているということになります。 これは、その製品が顧客によって最初に探される人気のアイテムであることを示している場合もあれば、その製品がその購入サイトで見つけやすいということを示しているだけの場合もあります。
[Start] も missing も含まれていない最初の遷移が見つかるまで一覧をスクロールします。
たとえば、"Touring Tire, Touring Tire Tube" という遷移が見つかった場合は、 そのクラスターの顧客がこれらのアイテムをよくこの順序で一緒に購入していることになります。
この遷移の色付きのバーの上にマウス ポインターを置きます。
この遷移の確率がパーセントで表示されます。
[クラスター] ボックスの一覧で、[母集団 (すべて)] を選択します。
属性の一覧が更新されて、モデルの作成に使用されたすべての注文の特性が表示されます。 このマイニング モデルでは、クラスターを区別する最も重要な特性は Region で、値は North America です。
以上の作業から、2 つのことがわかりました。 1 つは、意味のある数の組み合わせを得るためには大量のデータが必要であるということです。 たとえば、確率の高いシーケンスには多くの場合、[Start] や Missing の状態が含まれています。
もう 1 つは、Region の属性に対するクラスター化の効果が大きいために、シーケンスのグループを見つけにくくなっているということです。 したがって、地域や収入の列を含まない、シーケンスのみを使用する別のモデルを作成することにします。
トップに戻る
[クラスターの識別] タブ
[クラスターの識別] タブでは、2 つのクラスターを比較して、特定のクラスターを別のクラスターと区別している属性を調べることができます。 このタブには、[変数]、[値]、[クラスター 1]、[クラスター 2] の 4 つの列があります。 [クラスター 1] と [クラスター 2] に対しては任意のクラスターを選択できます。
[変数] 列には属性の名前が表示されます。これは、列の名前である場合もあれば、列の名前と "transition" という語の組み合わせである場合もあります。 [値] 列には、属性または遷移の正確な値が表示されます。 [クラスター 1] と [クラスター 2] の列の色付きのバーは、比較しているクラスターにおけるその属性の強度を表します。 バーが長いほど、その属性を持つケースがクラスターに含まれる可能性が高くなります。
[クラスターの識別] タブを使用して 2 つのクラスターを比較するには
[クラスターの識別] タブで、[クラスター 1] に対して Pacific Cluster を選択します。
[クラスター 2] の選択内容が既定で [次を除く全クラスター Pacific Cluster] に変更されます。
Pacific Cluster を他のすべてのケースから区別する最も重要な属性は地域です。 地域がクラスター化のための属性として強力すぎるために、他の属性がわかりにくくなっています。 この影響を回避するために、いくつかの小さなクラスターを互いに比較してみます。 そうすれば、属性の一覧が変更されて、モデル間の遷移がより多く含まれるようになる可能性があります。
遷移行を見つけて、色付きのバーの上にマウス ポインターを置きます。
[値] 列内のアイテムには、状態と遷移の両方が含まれている可能性があります。 各アイテムの色は識別スコアを表します。 さまざまなスコアの意味については、「シーケンス クラスター モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
トップに戻る
[状態遷移] タブ
[状態遷移] タブでは、クラスターを選択し、その状態の遷移を表示できます。 クラスターのドロップダウン リストから [母集団 (すべて)] を選択すると、マイニング モデル全体の状態の分布がダイアグラムに表示されます。
グラフの各ノードは、分析しようとしているシーケンスの状態または使用可能な値を表します。 ノードの背景色は、その状態の頻度を表します。 一部の状態を結ぶ線は、状態間の遷移を表します。 スライダーを上下に動かして、遷移の確率のしきい値を変更することもできます。 一部のノードに関連付けられている数値は、その状態の確率を表します。
[状態遷移] タブで関係を調査するには
マイニング モデル ビューアーの [状態遷移] タブで、クラスターの一覧から Pacific Cluster を選択します。 [線のラベルを表示する] オプションが選択されていることを確認します。
グラフが更新されて、このクラスターで最も一般的な遷移が表示されます。
別のノードと線で結ばれている任意のノードをクリックします。
グラフが更新されて、関連するノードが強調表示されます。 線の横の数値はその遷移の確率を表します。
スライダーを [すべてのリンク] まで動かして、グラフに含まれる遷移の数を増やします。
[クラスター] から [母集団 (すべて)] を選択します。
別のクラスターを読み込むとグラフが既定の表示設定にリセットされるため、スライダー コントロールが中央の位置に戻ります。
グラフの最も色の濃いノード (Sport-100) をクリックします。
この製品を他の製品と結ぶ線はありません。
スライダーを 1 段階上に動かして、グラフに含まれる遷移の数を増やします。 まだ [すべてのリンク] までは動かさないでください。
グラフが更新されていくつかの遷移が追加されますが、Sport-100 モデルを含む遷移はありません。
スライダー コントロールを [すべてのリンク] まで動かします。 まだ選択されていない場合は、Sport-100 ノードをクリックします。
グラフが更新されて、Sport-100 という製品を含む多数の遷移が表示されます。 ノードを結ぶ線の矢印の向きは、Sport-100 がペアの 1 つ目のアイテムとして選択されたか 2 つ目のアイテムとして選択されたかを表します。
Touring Tire のノードをクリックし、スライダー コントロールを中央の位置まで戻します。
最初は、Touring Tire を他の製品と結ぶ遷移の線が多数ありましたが、確率のしきい値を上げると、確率の低い遷移がグラフから取り除かれて、"Touring Tire > Touring Tire Tube" という遷移のみになります。 この遷移は、顧客が Touring Tire を買い物かごに入れた場合、その次に Touring Tire Tube をかごに入れる確率が高いことを示しています。
トップに戻る
汎用コンテンツ ツリー ビューアー
このビューアーは、アルゴリズムやモデルの種類に関係なく、すべてのモデルで使用できます。 Microsoft 汎用コンテンツ ツリー ビューアーは、[ビューアー] ボックスから起動できます。
コンテンツ ツリーは、マイニング モデルを一連のノードで表したものです。各ノードは、トレーニング データに関する学習済みの知識を表します。 ノードには、いくつかの属性が共通するパターン、一連のルール、クラスター、または日付範囲の定義を含めることができます。 ノードの正確な内容はアルゴリズムや予測可能な属性に応じて変わりますが、内容の全体的な表示は同じです。
各ノードを展開して、より詳細なレベルで表示したり、任意のノードの内容をクリップボードにコピーしたりできます。 詳細については、「Microsoft 汎用コンテンツ ツリー ビューアーを使用したモデルの参照」を参照してください。
汎用コンテンツ ツリー ビューアーを使用してシーケンス クラスター モデルの詳細を表示するには
[マイニング モデル ビューアー] タブの [ビューアー] ボックスの一覧で、[Microsoft 汎用コンテンツ ツリー ビューアー] を選択します。
[ノードのキャプション] ペインで Pacific Cluster (1) をクリックします。
このノードの名前には、クラスターに割り当てた表示名と、基になるノード ID の両方が含まれています。 ノード ID を使用してモデルの詳細にドリル ダウンできます。
最初の子ノード ([クラスター 1 のシーケンス レベル]) を展開します。
クラスターのシーケンス レベル ノードには、そのクラスターに含まれる状態と遷移の詳細が含まれています。 これらの詳細 (NODE_DISTRIBUTION 列に表示されます) を使用して、各クラスターまたはモデル全体のシーケンスと状態を調査することができます。
ノードをさらに展開して、HTML ビューアー ペインに詳細を表示します。
マイニング モデル コンテンツの詳細と、ビューアーの詳細情報の使用方法については、「シーケンス クラスター モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
トップに戻る
このレッスンの次の作業
関連するシーケンス クラスター モデルの作成 (中級者向けデータ マイニング チュートリアル)