構造とモデルの処理 (Analysis Services - データ マイニング)
データ マイニング オブジェクトは、処理されるまでは単なる空のコンテナです。データ マイニング モデルの処理は、トレーニングとも呼ばれます。
マイニング構造の処理 : マイニング構造は、列バインドと使用方法のメタデータの定義に従って外部のデータ ソースからデータを取得し、データを読み取ります。このデータの全体が読み取られて分析され、さまざまな統計情報が抽出されます。Analysis Services では、データ マイニング アルゴリズムによる分析に適した、簡潔な表現のデータがローカル キャッシュに格納されます。モデルを処理した後、このキャッシュを保持することも削除することもできます。既定では、キャッシュが保存されます。詳細については、「マイニング構造を処理する方法」を参照してください。
マイニング モデルの処理 : マイニング モデルは処理されるまで空で、定義だけが含まれています。マイニング モデルを処理するには、基になるマイニング構造の処理が完了している必要があります。マイニング モデルは、マイニング構造のキャッシュからデータを取得し、モデルに対して作成されたフィルタがあれば適用した後、データセットをアルゴリズムに渡してパターンを検出します。処理後のモデルには、データ自体ではなく処理結果だけが保存されます。詳細については、「マイニング モデルを処理する方法」を参照してください。
次の図は、マイニング構造とマイニング モデルの処理時のデータ フローを示しています。
処理中のリレーショナル ストアに対するクエリ
処理には、ソース データのクエリ、生の統計情報の特定、およびモデル定義とアルゴリズムを使用したマイニング モデルのトレーニングの 3 つの段階があります。
Analysis Services サーバーは、生データを提供するデータベースに対してクエリを実行します。そのデータベースは、SQL Server 2008 以前のバージョンの SQL Server データベース エンジンのインスタンスである場合もあります。データ マイニング構造の処理時には、ソース内のデータがマイニング構造に転送され、圧縮形式でディスク上に新たに保存されます。データ ソース内のすべての列が処理されるとは限りません。バインドの定義に従って、マイニング構造に含まれる列だけが処理されます。
Analysis Services はそのデータを使用して、すべてのデータおよび離散化列のインデックスと、連続列のための別のインデックスを作成します。入れ子になったテーブルごとに、インデックスを作成するためのクエリが実行され、入れ子になったテーブルとケース テーブルの各ペアの関係を処理するための追加のクエリが生成されます。このように複数のクエリが作成されるのは、特殊な内部オンライン分析処理 (OLAP) キューブを処理するためです。Analysis Services によってリレーショナル ストアに送信されるクエリの数を制限するには、サーバー プロパティの DatabaseConnectionPoolMax を設定します。詳細については、「OLAP のプロパティ」を参照してください。
モデルの処理時に、モデルは、データ ソースからデータを再度読み取るのではなく、マイニング構造からデータの概要を取得します。サーバーは、作成されたキューブと、キャッシュされたインデックス データとケース データを使用して、モデルのトレーニングを行うための独立したスレッドを作成します。
SQL Server Enterprise では、すべての処理が並列に実行されます。SQL Server Standard では、処理がシリアル化されます。
処理結果の表示
処理後のマイニング構造には、統計分析に使用できる、簡潔な表現のデータが含まれています。キャッシュが消去されていない場合、このキャッシュ内のデータには次の方法でアクセスできます。
モデルに対するデータ マイニング拡張機能 (DMX) クエリを作成し、構造にドリルスルーします。詳細については、「SELECT FROM <model>.CASES (DMX)」を参照してください。
構造に基づいてモデルを参照し、ユーザー インターフェイスでいずれかのオプションを使用して構造ケースにドリルスルーします。詳細については、「データ マイニング モデルの表示」または「マイニング モデルからケース データにドリルスルーする方法」を参照してください。
構造ケースに対する DMX クエリを作成します。詳細については、「SELECT FROM <structure>.CASES」を参照してください。
処理後のマイニング モデルには、分析によって生成されたパターンと、モデルの結果からキャッシュ内のトレーニング データへのマッピングだけが含まれています。モデルの結果 (モデル コンテンツ) に対して参照やクエリを実行できます。また、キャッシュされている場合は、モデル ケースや構造ケースに対してクエリを実行することもできます。
各マイニング モデルのモデル コンテンツは、作成に使用されたアルゴリズムによって異なります。たとえば、クラスタ モデルとデシジョン ツリー モデルでは、まったく同じデータを使用した場合でも、モデル コンテンツが大きく異なります。詳細については、「マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。