クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)
このトピックでは、Microsoft クラスタリング アルゴリズムを使用するモデルに固有のマイニング モデル コンテンツについて説明します。すべてのモデルの種類のマイニング モデル コンテンツに関する一般情報については、「マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
クラスタ モデルの構造について
クラスタ モデルの構造は単純です。モデルとそのメタデータを表す 1 つの親ノードが各モデルにあり、各親ノードにはクラスタのフラット リストがあります (NODE_TYPE = 5)。この構成を次の図に示します。
各子ノードは 1 つのクラスタを表し、そのクラスタ内のケースの属性に関する詳細な統計を格納しています (クラスタ内のケースの数や、クラスタを他のクラスタから区別する値の分布など)。
注意 |
---|
クラスタのカウントや説明を取得するためにノードを反復処理する必要はありません。クラスタのカウントと一覧はモデルの親ノードにも含まれています。 |
親ノードには、すべてのトレーニング ケースの実際の分布を表す便利な統計も含まれています。これらの統計は、入れ子になったテーブル列である NODE_DISTRIBUTION に含まれています。たとえば次の表は、「基本的なデータ マイニング チュートリアル」で作成したクラスタ モデル (TM_Clustering) の顧客の人口統計の分布を表す NODE_DISTRIBUTION テーブルのいくつかの行を示しています。
ATTRIBUTE_NAME |
ATRIBUTE_VALUE |
SUPPORT |
PROBABILITY |
VARIANCE |
VALUE_TYPE |
---|---|---|---|---|---|
Age |
Missing |
0 |
0 |
0 |
1 (Missing) |
Age |
44.9016152716593 |
12939 |
1 |
125.663453102554 |
3 (Continuous) |
Gender |
Missing |
0 |
0 |
0 |
1 (Missing) |
Gender |
F |
6350 |
0.490764355823479 |
0 |
4 (Discrete) |
Gender |
M |
6589 |
0.509235644176521 |
0 |
4 (Discrete) |
これらの結果から、モデルの作成に 12939 個のケースが使用されたこと、男女の比率がほぼ半々であること、および平均年齢が 44 歳であることがわかります。説明的な統計情報は、レポートされる属性が連続する数値データ型 (年齢など) か不連続値型 (性別など) かによって異なります。統計的尺度の平均および分散は連続するデータ型に対して計算され、確率およびサポートは不連続のデータ型に対して計算されます。
注意 |
---|
分散は、クラスタの全分散を表します。分散の値が小さい場合は、その列のほとんどの値が平均にきわめて近いことになります。標準偏差を得るには、分散の平方根を計算します。 |
各属性の Missing という値の型は、その属性のデータがなかったケースの数を示します。Missing のデータが重要になる場合もあります。このデータが計算に与える影響は、データ型によって異なります。詳細については、「不足値 (Analysis Services - データ マイニング)」を参照してください。
クラスタ モデルのモデル コンテンツ
ここでは、マイニング モデル コンテンツの列のうち、クラスタ モデルに関連する列についてのみ詳細と例を紹介します。
スキーマ行セットの汎用の列 (MODEL_CATALOG や MODEL_NAME など) の詳細については、「マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
MODEL_CATALOG
モデルが格納されているデータベースの名前。MODEL_NAME
モデルの名前。ATTRIBUTE_NAME
クラスタ モデルでは、予測可能な属性がないため常に空白になります。NODE_NAME
常に NODE_UNIQUE_NAME と同じです。NODE_UNIQUE_NAME
モデル内のノードの一意の識別子。この値は変更できません。NODE_TYPE
クラスタ モデルでは次のノード型が出力されます。ノード ID とノード名
説明
1 (モデル)
モデルのルート ノードです。
5 (クラスタ)
クラスタ内のケースの数および特性と、クラスタ内の値を説明する統計が含まれます。
NODE_CAPTION
表示名。モデルを作成すると、NODE_UNIQUE_NAME の値が自動的にキャプションとして使用されます。ただし、NODE_CAPTION の値を変更してクラスタの表示名を更新することもできます。この値は、プログラムで変更することも、ビューアを使用して変更することもできます。注意 モデルを再処理すると、すべての名前変更が新しい値で上書きされます。モデル内の名前を固定したり、クラスタ メンバシップの変更をモデルの異なるバージョンの間で追跡したりすることはできません。
CHILDREN_CARDINALITY
ノードの子の推定数。親ノード モデル内のクラスタの数を示します。
クラスタ ノード 常に 0 です。
PARENT_UNIQUE_NAME
ノードの親の一意な名前。親ノード 常に NULL です。
クラスタ ノード 通常は 000 です。
NODE_DESCRIPTION
ノードの説明。親ノード 常に (すべて) です。
クラスタ ノード クラスタを他のクラスタから区別する主な属性のコンマ区切りのリストです。
NODE_RULE
クラスタ モデルでは使用されません。MARGINAL_RULE
クラスタ モデルでは使用されません。NODE_PROBABILITY
このノードに関連付けられている確率。親ノード 常に 1 です。クラスタ ノード 属性の合成確率を表します。クラスタ モデルの作成に使用されたアルゴリズムに応じて何らかの調整が加えられます。
MARGINAL_PROBABILITY
親ノードからノードに到達する確率です。クラスタ モデルでは常に NODE_PROBABILITY と同じです。NODE_DISTRIBUTION
ノードの確率ヒストグラムが含まれているテーブル。親ノード このトピックの最初のセクションを参照してください。
クラスタ ノード そのクラスタに含まれているケースの属性と値の分布を表します。
NODE_SUPPORT
このノードをサポートするケースの数。親ノード モデル全体のトレーニング ケースの数を示します。クラスタ ノード クラスタのサイズをケースの数として示します。
注 モデルで K-Means クラスタリングが使用されている場合は、各ケースが所属できるクラスタは 1 つだけですが、モデルで EM クラスタリングが使用されている場合は、各ケースが異なるクラスタに所属することができ、所属するクラスタごとに重み付きの距離が割り当てられます。したがって、EM モデルの場合は、個々のクラスタのサポートの合計がモデル全体のサポートより大きくなります。
MSOLAP_MODEL_COLUMN
クラスタ モデルでは使用されません。MSOLAP_NODE_SCORE
ノードに関連付けられたスコアが表示されます。親ノード クラスタ モデルの Bayesian Information Criterion (BIC) スコアです。
クラスタ ノード 常に 0 です。
MSOLAP_NODE_SHORT_CAPTION
表示目的で使用されるラベル。変更することはできません。親ノード モデルの種類 (クラスタ モデル)。
クラスタ ノード クラスタの名前 (Cluster 1 など)。
説明
Analysis Services には、クラスタ モデルを作成するための方法が複数用意されています。使用しているモデルがどの方法で作成されたかわからない場合は、モデルのメタデータを取得します。モデルのメタデータは、ADOMD クライアントや AMO を使用してプログラムで取得することも、データ マイニング スキーマ行セットに対してクエリを実行して取得することもできます。詳細については、「マイニング モデルの作成に使用されたパラメータをクエリする方法」を参照してください。
注意 |
---|
使用するクラスタリング手法やパラメータが違っても、モデルの構造とコンテンツは変わりません。 |