[アーティクル]
09/28/2010

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

このトピックでは、Microsoft クラスタリングアルゴリズムを使用するモデルに固有のマイニングモデルコンテンツについて説明します。すべてのモデルの種類のマイニングモデルコンテンツに関する一般情報については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

クラスタモデルの構造について

クラスタモデルの構造は単純です。モデルとそのメタデータを表す 1 つの親ノードが各モデルにあり、各親ノードにはクラスタのフラットリストがあります (NODE_TYPE = 5)。この構成を次の図に示します。

クラスタのモデルコンテンツの構造

各子ノードは 1 つのクラスタを表し、そのクラスタ内のケースの属性に関する詳細な統計を格納しています (クラスタ内のケースの数や、クラスタを他のクラスタから区別する値の分布など)。

注意
クラスタのカウントや説明を取得するためにノードを反復処理する必要はありません。クラスタのカウントと一覧はモデルの親ノードにも含まれています。

親ノードには、すべてのトレーニングケースの実際の分布を表す便利な統計も含まれています。これらの統計は、入れ子になったテーブル列である NODE_DISTRIBUTION に含まれています。たとえば次の表は、「基本的なデータマイニングチュートリアル」で作成したクラスタモデル (TM_Clustering) の顧客の人口統計の分布を表す NODE_DISTRIBUTION テーブルのいくつかの行を示しています。

ATTRIBUTE_NAME	ATRIBUTE_VALUE	SUPPORT	PROBABILITY	VARIANCE	VALUE_TYPE
Age	Missing	0	0	0	1 (Missing)
Age	44.9016152716593	12939	1	125.663453102554	3 (Continuous)
Gender	Missing	0	0	0	1 (Missing)
Gender	F	6350	0.490764355823479	0	4 (Discrete)
Gender	M	6589	0.509235644176521	0	4 (Discrete)

これらの結果から、モデルの作成に 12939 個のケースが使用されたこと、男女の比率がほぼ半々であること、および平均年齢が 44 歳であることがわかります。説明的な統計情報は、レポートされる属性が連続する数値データ型 (年齢など) か不連続値型 (性別など) かによって異なります。統計的尺度の平均および分散は連続するデータ型に対して計算され、確率およびサポートは不連続のデータ型に対して計算されます。

注意
分散は、クラスタの全分散を表します。分散の値が小さい場合は、その列のほとんどの値が平均にきわめて近いことになります。標準偏差を得るには、分散の平方根を計算します。

各属性の Missing という値の型は、その属性のデータがなかったケースの数を示します。Missing のデータが重要になる場合もあります。このデータが計算に与える影響は、データ型によって異なります。詳細については、「不足値 (Analysis Services - データマイニング)」を参照してください。

クラスタモデルのモデルコンテンツ

ここでは、マイニングモデルコンテンツの列のうち、クラスタモデルに関連する列についてのみ詳細と例を紹介します。

スキーマ行セットの汎用の列 (MODEL_CATALOG や MODEL_NAME など) の詳細については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

MODEL_CATALOG
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
ATTRIBUTE_NAME
クラスタモデルでは、予測可能な属性がないため常に空白になります。
NODE_NAME
常に NODE_UNIQUE_NAME と同じです。
NODE_UNIQUE_NAME
モデル内のノードの一意の識別子。この値は変更できません。

NODE_TYPE
クラスタモデルでは次のノード型が出力されます。

ノード ID とノード名	説明
1 (モデル)	モデルのルートノードです。
5 (クラスタ)	クラスタ内のケースの数および特性と、クラスタ内の値を説明する統計が含まれます。

NODE_CAPTION
表示名。モデルを作成すると、NODE_UNIQUE_NAME の値が自動的にキャプションとして使用されます。ただし、NODE_CAPTION の値を変更してクラスタの表示名を更新することもできます。この値は、プログラムで変更することも、ビューアを使用して変更することもできます。

注意
モデルを再処理すると、すべての名前変更が新しい値で上書きされます。モデル内の名前を固定したり、クラスタメンバシップの変更をモデルの異なるバージョンの間で追跡したりすることはできません。

CHILDREN_CARDINALITY
ノードの子の推定数。

親ノード モデル内のクラスタの数を示します。

クラスタノード 常に 0 です。
PARENT_UNIQUE_NAME
ノードの親の一意な名前。

親ノード 常に NULL です。

クラスタノード 通常は 000 です。
NODE_DESCRIPTION
ノードの説明。

親ノード 常に (すべて) です。

クラスタノード クラスタを他のクラスタから区別する主な属性のコンマ区切りのリストです。
NODE_RULE
クラスタモデルでは使用されません。
MARGINAL_RULE
クラスタモデルでは使用されません。
NODE_PROBABILITY
このノードに関連付けられている確率。親ノード 常に 1 です。

クラスタノード 属性の合成確率を表します。クラスタモデルの作成に使用されたアルゴリズムに応じて何らかの調整が加えられます。
MARGINAL_PROBABILITY
親ノードからノードに到達する確率です。クラスタモデルでは常に NODE_PROBABILITY と同じです。
NODE_DISTRIBUTION
ノードの確率ヒストグラムが含まれているテーブル。

親ノード このトピックの最初のセクションを参照してください。

クラスタノード そのクラスタに含まれているケースの属性と値の分布を表します。
NODE_SUPPORT
このノードをサポートするケースの数。親ノード   モデル全体のトレーニングケースの数を示します。

クラスタノード   クラスタのサイズをケースの数として示します。

注   モデルで K-Means クラスタリングが使用されている場合は、各ケースが所属できるクラスタは 1 つだけですが、モデルで EM クラスタリングが使用されている場合は、各ケースが異なるクラスタに所属することができ、所属するクラスタごとに重み付きの距離が割り当てられます。したがって、EM モデルの場合は、個々のクラスタのサポートの合計がモデル全体のサポートより大きくなります。
MSOLAP_MODEL_COLUMN
クラスタモデルでは使用されません。
MSOLAP_NODE_SCORE
ノードに関連付けられたスコアが表示されます。

親ノード クラスタモデルの Bayesian Information Criterion (BIC) スコアです。

クラスタノード 常に 0 です。
MSOLAP_NODE_SHORT_CAPTION
表示目的で使用されるラベル。変更することはできません。

親ノード モデルの種類 (クラスタモデル)。

クラスタノード クラスタの名前 (Cluster 1 など)。

説明

Analysis Services には、クラスタモデルを作成するための方法が複数用意されています。使用しているモデルがどの方法で作成されたかわからない場合は、モデルのメタデータを取得します。モデルのメタデータは、ADOMD クライアントや AMO を使用してプログラムで取得することも、データマイニングスキーマ行セットに対してクエリを実行して取得することもできます。詳細については、「マイニングモデルの作成に使用されたパラメータをクエリする方法」を参照してください。

注意
使用するクラスタリング手法やパラメータが違っても、モデルの構造とコンテンツは変わりません。

次の方法で共有

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

クラスタモデルの構造について

クラスタモデルのモデルコンテンツ

説明

関連項目

概念

その他の技術情報

その他のリソース

次の方法で共有

クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)

クラスタ モデルの構造について

クラスタ モデルのモデル コンテンツ

説明

関連項目

概念

その他の技術情報

その他のリソース

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

クラスタモデルの構造について

クラスタモデルのモデルコンテンツ