分離メソッド

[アーティクル]
12/15/2008

Microsoft SQL Server 2005 Analysis Services (SSAS) でデータマイニングモデルを作成するための一部のアルゴリズムでは、正常に機能するために特定の種類のコンテンツが必要です。たとえば、Microsoft Naive Bayes などのアルゴリズムでは、連続する列を入力として使用したり、連続する値を予測したりすることはできません。また、一部の列に含まれている値が多すぎるため、データマイニングモデルの作成元となるデータ内の対象パターンをアルゴリズムで容易に識別できない場合があります。

このような場合、アルゴリズムを使用してマイニングモデルを生成できるように、列内のデータを分離できます。分離とは、連続した一連のデータの値をバケットに分割して、モデル生成可能な状態を個別に複数生成するプロセスです。バケット自体は、順序付きの不連続の値として処理されます。数値と文字列の両方の列を分離できます。

データを分離するためのいくつかのメソッドがあります。各メソッドでは、次のコード例の式を使用して、生成するバケットの数が自動的に計算されます。

Number of Buckets = sqrt(n)

このコード例の n は、列内の個別のデータ値の数です。Analysis Services でバケットの数を計算しない場合は、DiscretizationBuckets プロパティを使用して、バケットの数を手動で指定できます。

次の表では、Analysis Services でデータを分離するときに使用できるメソッドについて説明します。

分離メソッド	説明
AUTOMATIC	Analysis Services によって、使用する分離メソッドが決定されます。
CLUSTERS	このアルゴリズムは、トレーニングデータをサンプリングして多数のランダムポイントに初期化し、Expectation Maximization (EM) クラスタ化アルゴリズムを使用して Microsoft クラスタリングアルゴリズムを何度か繰り返し実行することによって、データをグループに分割します。CLUSTERS メソッドは、どのような分布曲線にも使用できるので便利です。ただし、その他の分離メソッドよりも処理時間は長くなります。このメソッドは数値列でのみ使用できます。
EQUAL_AREAS	このアルゴリズムは、同数の値が含まれているグループにデータを分割します。このメソッドは正規分布曲線に最適ですが、連続データの小さなグループに多数の値が含まれている分布の場合は適切に機能しません。たとえば、ケースダイアグラムで指定された発注品目の半数のコストの値が 0 である場合、データの半数は曲線の 1 点の下に位置します。このような分布の場合、このメソッドはデータを分割するときに、複数の領域に均等に分離しようとします。これにより、データが不適切に表示されます。

AUTOMATIC

Analysis Services によって、使用する分離メソッドが決定されます。

CLUSTERS

このアルゴリズムは、トレーニングデータをサンプリングして多数のランダムポイントに初期化し、Expectation Maximization (EM) クラスタ化アルゴリズムを使用して Microsoft クラスタリングアルゴリズムを何度か繰り返し実行することによって、データをグループに分割します。CLUSTERS メソッドは、どのような分布曲線にも使用できるので便利です。ただし、その他の分離メソッドよりも処理時間は長くなります。

このメソッドは数値列でのみ使用できます。

EQUAL_AREAS

このアルゴリズムは、同数の値が含まれているグループにデータを分割します。このメソッドは正規分布曲線に最適ですが、連続データの小さなグループに多数の値が含まれている分布の場合は適切に機能しません。たとえば、ケースダイアグラムで指定された発注品目の半数のコストの値が 0 である場合、データの半数は曲線の 1 点の下に位置します。このような分布の場合、このメソッドはデータを分割するときに、複数の領域に均等に分離しようとします。これにより、データが不適切に表示されます。

EQUAL_AREAS メソッドを使用すると、文字列を分離できます。

CLUSTERS および THRESHOLDS メソッドは、1,000 個のレコードのランダムサンプルを使用してデータを分離します。アルゴリズムでデータをサンプリングしない場合は、EQUAL_AREAS メソッドを使用します。

参照

次の方法で共有

分離メソッド

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース