Microsoft クラスタリングアルゴリズムテクニカルリファレンス

[アーティクル]
11/10/2015

ここでは、Microsoft クラスタリングアルゴリズムの実装について、クラスターモデルの動作を制御するために使用できるパラメーターを含めて説明します。クラスターモデルの作成時や処理時のパフォーマンスを向上させる方法に関するアドバイスも含まれています。

クラスターモデルの使用方法の詳細については、次のトピックを参照してください。

Microsoft クラスタリングアルゴリズムの実装

Microsoft クラスタリングアルゴ��ズムには、クラスターを作成してデータポイントを割り当てるための方法が 2 つ用意されています。1 つ目の K-means アルゴリズムは、ハードクラスタリングの手法です。この手法では、データポイントが所属できるクラスターは 1 つだけであるため、そのクラスターの各データポイントのメンバーシップについて 1 つの確率が計算されます。2 つ目の Expectation Maximization (EM) 手法は、ソフトクラスタリングの手法です。この手法では、データポイントが常に複数のクラスターに所属するため、データポイントとクラスターの組み合わせごとに確率が計算されます。

どちらのアルゴリズムを使用するかは、CLUSTERING_METHOD パラメーターを設定して選択できます。既定のクラスタリング手法はスケーラブル EM です。

EM クラスタリング

EM クラスタリングでは、初期クラスターモデルがデータに合わせて反復的に調整され、データポイントがクラスター内に存在する確率が判定されます。このプロセスは、その確率論的モデルがデータに適合すると終了します。適合の判定に使用される関数は、与えられたモデルに対するデータの対数尤度です。

このプロセスで空のクラスターが生成された場合や、メンバーシップが指定のしきい値に達していないクラスターがあった場合は、母集団の小さいクラスターが新しいポイントで再シードされ、EM アルゴリズムが再実行されます。

EM クラスタリング手法の結果は確率論的です。つまり、すべてのデータポイントがすべてのクラスターに所属しますが、割り当ての確率はそれぞれ異なります。この手法ではクラスターの重複が許可されるため、すべてのクラスター内のアイテムの合計がトレーニングセットのアイテムの合計数を上回る場合もあります。マイニングモデルの結果では、このことを反映してサポートのスコアが調整されます。

EM アルゴリズムは、Microsoft クラスターモデルで使用される既定のアルゴリズムです。このアルゴリズムが既定で使用されるのは、K-Means クラスタリングに比べて次のような利点があるためです。

データベースのスキャンが 1 回で済む。
メモリ (RAM) が限られていても動作する。
順方向専用カーソルを使用できる。
サンプリングの手法よりパフォーマンスが高い。

Microsoft による実装には、スケーラブル EM と非スケーラブル EM という 2 つのオプションがあります。既定のスケーラブル EM では、初期スキャンのシードに最初の 50,000 レコードが使用されます。これが成功した場合は、モデルでそのデータのみが使用されます。50,000 個のレコードを使用して適切なモデルを作成できなかった場合は、さらに 50,000 個のレコードが読み取られます。非スケーラブル EM では、サイズにかかわらずデータセット全体が読み取られます。これにより、より正確なクラスターが作成される場合もありますが、必要なメモリの量が大幅に増加する可能性があります。スケーラブル EM では、ローカルバッファーが使用されるため、データの反復処理が大幅に高速化されます。また、非スケーラブル EM よりはるかに効率的に CPU メモリキャッシュを活用できます。さらに、すべてのデータがメインメモリに収まる場合でも非スケーラブル EM に比べて 3 倍高速になります。このパフォーマンスの改善によって最終的なモデルの質が低下することもほとんどありません。

Microsoft クラスタリングアルゴリズムの EM の実装に関する技術的なレポートについては、「EM (Expectation Maximization) クラスタリングの大規模データベースへのスケーリング」を参照してください。

K-Means クラスタリング

K-Means クラスタリングは、クラスター内のアイテム間の相違を最小化し、クラスター間の距離を最大化することによってクラスターメンバーシップを割り当てる、よく知られている手法です。K-Means の "Means" は、クラスターの重心を表します。クラスターの重心とは、任意に選択され、クラスター内のすべてのデータポイントの真の平均を表すようになるまで反復的に調整されるデータポイントです。"K" は、クラスタリング処理のシードに使用される任意の数のポイントを表します。K-Means アルゴリズムでは、クラスター内のデータレコードと、クラスターの平均を表すベクトルとの間のユークリッド距離の 2 乗を計算し、その総和が最小値に達したとき、最終的な k 個のクラスターのセットに収束します。

K-Means アルゴリズムでは、各データポイントが割り当てられるクラスターは 1 つだけであり、メンバーシップのあいまいさは許容されません。クラスターのメンバーシップは重心からの距離として表されます。

K-Means アルゴリズムは、平均への距離を簡単に計算できる連続属性のクラスターの作成に使用されるのが一般的ですが、Microsoft の実装では、確率を使用することにより、不連続属性に対しても使用できるようになっています。不連続属性の場合、特定のクラスターからデータポイントまでの距離は次のように計算されます。

1 - P(data point, cluster)

注
Microsoft クラスタリングアルゴリズムでは、K-Means の計算に使用される距離関数は公開されておらず、完成したモデルで距離の測定値を使用することはできません。ただし、予測関数を使用して、距離に相当する値を取得することができます。この場合の距離は、データポイントがクラスターに属する確率として計算されます。詳細については、「ClusterProbability (DMX)」を参照してください。

Microsoft クラスタリングアルゴリズムでは、K-Means の計算に使用される距離関数は公開されておらず、完成したモデルで距離の測定値を使用することはできません。ただし、予測関数を使用して、距離に相当する値を取得することができます。この場合の距離は、データポイントがクラスターに属する確率として計算されます。詳細については、「ClusterProbability (DMX)」を参照してください。

K-means アルゴリズムには、2 種類のデータセットサンプリング方式が提供されています。1 つは非スケーラブル K-means であり、それは、データセット全体の読み込んで 1 つのクラスタリングパスを作成します。もう 1 つはスケーラブル k-means であり、その場合、アルゴリズムでは最初の 50,000 ケースが使用され、モデルがデータにうまく適合するためにさらに多くのデータが必要となる場合にのみ、さらに多くのケースが読み込まれます。

SQL Server 2008 の Microsoft クラスタリングアルゴリズムへの更新

SQL Server 2008 で、Microsoft クラスタリングアルゴリズムの既定の構成に変更が加えられ、内部パラメーター NORMALIZATION = 1 を使用するようになりました。正規化は z スコア統計を使用して実行され、正規分布を前提としています。既定の動作をこのように変更したのは、規模が大きくなり外れ値が増える可能性がある属性の影響を最小限に抑えるためです。ただし、z スコア正規化により、正規ではない分布 (均一分布など) のクラスタリング結果が異なる可能性があります。正規化を回避し、SQL Server 2005 の K-Means クラスタリングアルゴリズムと同じ動作を得るには、[パラメーター設定] ダイアログボックスを使用して、カスタムパラメーター NORMALIZATION を追加し、その値を 0 に設定します。

注
NORMALIZATION パラメーターは Microsoft クラスタリングアルゴリズムの内部プロパティであり、サポートされていません。通常、モデルの結果を向上させるには、クラスタリングモデルで正規化を使用することをお勧めします。

Microsoft クラスタリングアルゴリズムのカスタマイズ

Microsoft クラスタリングアルゴリズムでは、結果として得られるマイニングモデルの動作、パフォーマンス、および精度に影響を与えるいくつかのパラメーターがサポートされています。

アルゴリズムパラメーターの設定

次の表は、Microsoft クラスタリングアルゴリズムで使用できるパラメーターを示しています。これらのパラメーターは、結果として得られるマイニングモデルのパフォーマンスと精度の両方に影響を与えます。

CLUSTERING_METHOD
アルゴリズムで使用するクラスタリング手法を指定します。使用可能なクラスタリング手法は次のとおりです。

ID

メソッド

1

スケーラブル EM

2

非スケーラブル EM (Non-scalable EM)

3

スケーラブル K-Means

4

非スケーラブル K-Means

既定値は 1 (スケーラブル EM) です。
CLUSTER_COUNT
アルゴリズムによって作成されるクラスターの概数を指定します。その数のクラスターをデータから作成できない場合は、可能な限り多数のクラスターが作成されます。CLUSTER_COUNT を 0 に設定すると、アルゴリズムではヒューリスティックを使用して、作成するクラスターの数が最適に決定されます。

既定値は 10 です。
CLUSTER_SEED
モデル作成の初期段階にクラスターをランダムに生成するために使用するシード数を指定します。

この数を変更することにより、初期クラスターの作成方法を変更できます。その後、異なるシードを使用して作成したモデルを比較することができます。シードを変更しても検出されるクラスターがあまり変わらない場合は、モデルが比較的安定していると考えることができます。

既定値は 0 です。

ID	メソッド
1	スケーラブル EM
2	非スケーラブル EM (Non-scalable EM)
3	スケーラブル K-Means
4	非スケーラブル K-Means

MINIMUM_SUPPORT
クラスターの作成に必要なケースの最小数を指定します。ケースの数がこの数より少ないクラスターは空のクラスターとして扱われ、破棄されます。

この数を高く設定しすぎると、有効なクラスターを見落とす可能性があります。

注
既定のクラスタリング手法である EM を使用すると、指定した値より低いサポート値を持つクラスターが作成される場合があります。これは、各ケースがすべての可能なクラスターのメンバーシップについて評価されるため、中には最小限のサポートしかないクラスターもあるからです。

既定値は 1 です。

MODELLING_CARDINALITY
クラスタリング処理中に作成されるサンプルモデルの数を指定します。

この数を減らすと、適切な候補モデルが作成されなくなる可能性もありますが、パフォーマンスを向上させることができます。

既定値は 10 です。
STOPPING_TOLERANCE
収束に到達し、アルゴリズムによるモデルの作成が完了する時点を決定するための値を指定します。収束に到達するのは、クラスターの確率の全体的な変化が、モデルのサイズで除算された STOPPING_TOLERANCE パラメーターの比率に満たないときです。

既定値は 10 です。
SAMPLE_SIZE
CLUSTERING_METHOD パラメーターをスケーラブルなクラスタリング手法のいずれかに設定する場合に、アルゴリズムにより各パスで使用されるケースの数を指定します。SAMPLE_SIZE パラメーターを 0 に設定すると、データセット全体が単一のパスでクラスター化されます。データセット全体を単一のパスで読み込むと、メモリやパフォーマンスの問題が発生する可能性があります。

既定値は 50000 です。
MAXIMUM_INPUT_ATTRIBUTES
選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の最大数を指定します。この値を 0 に設定した場合、属性数の上限はありません。

属性の数を増やすと、パフォーマンスが大幅に低下する可能性があります。

既定値は 255 です。
MAXIMUM_STATES
アルゴリズムによってサポートされる属性状態の最大数を指定します。属性の状態の数が最大数よりも大きい場合、アルゴリズムでは最も一般的な状態が使用され、残りの状態は無視されます。

状態の数を増やすと、パフォーマンスが大幅に低下する可能性があります。

既定値は 100 です。

モデリングフラグ

アルゴリズムでは、次のモデリングフラグがサポートされています。モデリングフラグは、マイニング構造やマイニングモデルを作成するときに定義し、分析時に各列の値をどのように処理するかを指定します。

モデリングフラグ	説明
MODEL_EXISTENCE_ONLY	列が、Missing および Existing の 2 つの可能な状態を持つ列として扱われます。NULL は Missing 値になります。マイニングモデル列に適用されます。
NOT NULL	列に NULL を含めることはできません。モデルのトレーニング中に NULL が検出された場合はエラーが発生します。マイニング構造列に適用されます。

MODEL_EXISTENCE_ONLY

列が、Missing および Existing の 2 つの可能な状態を持つ列として扱われます。NULL は Missing 値になります。

マイニングモデル列に適用されます。

NOT NULL

列に NULL を含めることはできません。モデルのトレーニング中に NULL が検出された場合はエラーが発生します。

マイニング構造列に適用されます。

必要条件

クラスタリングモデルは、キー列と入力列を含んでいる必要があります。入力列は、予測可能列として定義することもできます。Predict Only に設定されている列は、クラスターの作成には使用されません。クラスター内のそれらの値の分布は、クラスターの作成後に算出されます。

入力列と予測可能列

Microsoft クラスタリングアルゴリズムでは、次の表に示す特定の入力列と予測可能列がサポートされています。マイニングモデルにおけるコンテンツの種類の意味については、「コンテンツの種類 (データマイニング)」を参照してください。

Column	コンテンツの種類
入力属性	Continuous、Cyclical、Discrete、Discretized、Key、Table、Ordered
予測可能な属性	Continuous、Cyclical、Discrete、Discretized、Table、Ordered

注
コンテンツの種類 Cyclical および Ordered はサポートされますが、アルゴリズムはこれらを不連続の値として扱い、特別な処理は行いません。

次の方法で共有

Microsoft クラスタリングアルゴリズムテクニカルリファレンス

Microsoft クラスタリングアルゴリズムの実装

EM クラスタリング

K-Means クラスタリング

SQL Server 2008 の Microsoft クラスタリングアルゴリズムへの更新

Microsoft クラスタリングアルゴリズムのカスタマイズ

アルゴリズムパラメーターの設定

モデリングフラグ

必要条件

入力列と予測可能列

関連項目

参照

概念

その他のリソース

次の方法で共有

Microsoft クラスタリング アルゴリズム テクニカル リファレンス

Microsoft クラスタリング アルゴリズムの実装

EM クラスタリング

K-Means クラスタリング

SQL Server 2008 の Microsoft クラスタリング アルゴリズムへの更新

Microsoft クラスタリング アルゴリズムのカスタマイズ

アルゴリズム パラメーターの設定

モデリング フラグ

必要条件

入力列と予測可能列

関連項目

参照

概念

その他のリソース

Microsoft クラスタリングアルゴリズムテクニカルリファレンス

Microsoft クラスタリングアルゴリズムの実装

SQL Server 2008 の Microsoft クラスタリングアルゴリズムへの更新

Microsoft クラスタリングアルゴリズムのカスタマイズ

アルゴリズムパラメーターの設定

モデリングフラグ