構造へのマイニング モデルの追加 (Analysis Services - データ マイニング)
マイニング構造がデータ ドメインを定義するのに対し、マイニング モデルは、そのドメインのデータを特定の問題に適用する方法を定義します。マイニング構造を作成した後、複数のマイニング モデルを構造に追加できます。モデルを作成するたびに、異なるビジネス上の問題を対象とすることができます。たとえば、パラメータを変更することによって、わずかに異なるアプローチを使用できます。また、異なるデータ サブセットを使用して、異なる結果を取得することも、対象母集団に固有のパターンを抽出することもできます。
詳細情報 : 「新しいマイニング構造の作成」、「データ マイニング ウィザード (Analysis Services - データ マイニング)」、「データ マイニング デザイナでのマイニング構造の管理」
新しいマイニング モデルの作成
マイニング モデルを作成するには、2 つの方法があります。マイニング構造を定義した後、その構造を使用するさまざまなモデルを試すことができます。また、モデルを作成した後、生成される構造を使用して、追加のモデルを作成することもできます。
データ マイニング ウィザードを使用して新しいマイニング モデルを作成する場合は、まずマイニング構造を作成します。ウィザードでは次に、初期マイニング モデルを構造に追加し、その構造内のトレーニングとテストのデータセットを構成することができます。ただし、モデルをすぐに作成する必要はありません。構造のみを作成する場合は、予測可能な属性として使用する列や、具体的なモデルにおけるデータの使用方法について、決定する必要がありません。将来使用するために一般的なデータ構造のみを設定しておくと、後でデータ マイニング デザイナを使用して、構造に基づく新しいマイニング モデルを追加できます。
作成するマイニング モデルの種類が既にわかっている場合は、構造を作成してから、データ マイニング ウィザードを使用して、最初のモデルをマイニング構造に追加することができます。ウィザードを完了した後、構造にモデルをさらに追加することもできます。
注 |
---|
DMX の CREATE MINING MODEL ステートメントは、マイニング モデルから始まります。つまり、ユーザーがマイニング モデルを定義すると、基になる構造が Analysis Services によって自動的に生成されます。後で ALTER STRUCTURE… ADD MODEL ステートメントを使用すると、その構造に新しいマイニング モデルを引き続き追加できます。 |
詳細情報 : 「データ マイニング デザイナでのマイニング モデルの管理」
マイニング モデルの定義
- データ ドメインを定義したら、列のコンテンツと列の使用法を指定することにより、データの各列の使用方法を Analysis Services に指示します。データ マイニング構造に含まれている各列を、新しいマイニング モデルで使用する必要はありません。2 つのモデルの基になる構造が同じ場合でも、一方のモデルで特定の列を無視するよう Analysis Services に指示できます。詳細については、「論理アーキテクチャ (Analysis Services - データ マイニング)」を参照してください。
アルゴリズムの選択
モデルを構造に追加するときは、そのモデルで使用するデータ マイニング アルゴリズムを選択する必要があります。アルゴリズムごとに、実行する分析の種類が異なります。また、一部のアルゴリズムでは、入力や予測に使用するデータ列の数と種類に関する要件が異なります。
したがって、選択するアルゴリズムによっては、マイニング構造に含めたデータ列の一部が無視される場合、他のデータ型への変換が必要となる場合、または値の削除が必要となる場合があります。データ マイニング ウィザードでは、モデルが機能するように、一部の値が自動的に変更されます。ただし、最初にデータを修正したり、ケース キーなどの必要な列を追加したりするよう、ウィザードによって推奨される場合もあります。
場合によってはモデルで使用するアルゴリズムを変更できますが、通常、モデルの定義を変更すると、モデルとそのデータの再処理が必要となります。一般に、モデルで使用するアルゴリズムを変更したら、それはまったく新しいモデルであって、再処理が必要だと考えてください。
列の使用法の指定
アルゴリズムを選択した後、構造内のデータをアルゴリズムが処理する方法を指定する必要があります。これには、予測可能列の選択 (モデルで必要な場合)、入力として使用する列の選択、ケース テーブルか入れ子になったテーブルのキーの指定が含まれます。同じデータを使用していても、モデルごとにこれらの列の定義が異なる場合があります。アルゴリズムごとに要件が異なるためです。不要なデータを含めると処理時間が長くなり、結果の質に影響する可能性もあるため、分析に特に役立つ列だけを選択することをお勧めします。データ マイニング ウィザードには、オプションの [候補検索] 機能が用意されています。この機能は、構造に含まれている列を分析し、エントロピーに基づくスコアにより、最も多くの情報を提供する列を候補として表示します。
詳細情報 : 「マイニング モデル列」、「マイニング モデルのプロパティの設定」
列のコンテンツの指定
- 一部の列に対しては、列のコンテンツも指定する必要があります。SQL Server のデータ マイニングでは、各データ列の Content Type プロパティによって、その列のデータの処理方法をアルゴリズムに指示します。たとえば、変数値を持つ Income 列がデータにある場合、コンテンツの種類を Continuous に設定することによって、連続する数値が列に含まれていることを示す必要があります。一方、コンテンツの種類を Discretized に設定し、必要に応じて正確なバケット数を指定することによって、Income 列内の数値を複数のバケットにグループ化するよう指定することもできます。列の処理方法が異なる複数のモデルを作成できます。たとえば、あるモデルでは顧客を 3 つの年齢層のバケットに分け、別のモデルでは顧客を 10 の年齢層のバケットに分けることができます。
詳細情報 : 「データ型 (データ マイニング)」、「コンテンツの種類 (データ マイニング)」