構造へのマイニング モデルの追加 (Analysis Services - データ マイニング)
1 つのマイニング構造で複数のマイニング モデルをサポートできるようになっています。 そのため、ウィザードの完了後、構造を開いて新しいマイニング モデルを追加できます。 作成した各モデルで、別のアルゴリズムの使用、パラメーターの変更、または別のデータのサブセットを使用するためのフィルターの適用が可能です。
新しいマイニング モデルの追加
データ マイニング ウィザードを使用して新しいマイニング モデルを作成する場合、既定では、まずマイニング構造を作成する必要があります。 次に、ウィザードにより、構造に初期マイニング モデルを追加するためのオプションが示されます。 ただし、モデルをすぐに作成する必要はありません。 構造のみを作成する場合は、予測可能な属性として使用する列や、具体的なモデルにおけるデータの使用方法について、決定する必要がありません。 将来使用するために一般的なデータ構造のみを設定しておくと、後でデータ マイニング デザイナーを使用して、構造に基づく新しいマイニング モデルを追加できます。
注 |
---|
DMX の CREATE MINING MODEL ステートメントは、マイニング モデルから始まります。 つまり、ユーザーがマイニング モデルを定義すると、基になる構造が Analysis Services によって自動的に生成されます。 後で ALTER STRUCTURE ... ADD MODEL ステートメントを使用すると、その構造に新しいマイニング モデルを引き続き追加できます。 |
アルゴリズムの選択
既存の構造に新しいモデルを追加する場合、最初にすることは、そのモデルで使用するデータ マイニング アルゴリズムの選択です。 各アルゴリズムは異なる種類の解析を実行し、異なる要件を持つため、アルゴリズムの選択は重要です。
データと互換性のないアルゴリズムを選択すると、警告が表示されます。 場合によっては、アルゴリズムで処理できない列を無視する必要があります。 また、アルゴリズムが自動的に調整を行う場合もあります。 たとえば、構造に数値データが含まれていて、アルゴリズムは不連続値しか処理できない場合、数値が不連続な範囲に自動的にグループ化されます。 場合によっては、キーを選択するか予測可能な属性を選択して、先に手動でデータを修正する必要があります。
新しいモデルを作成するときに、アルゴリズムを変更する必要はありません。 多くの場合、同じアルゴリズムを使用しても、データのフィルター処理や、クラスタリング手法、最小のアイテムセットのサイズなどのパラメーターの変更によって、大きく異なる結果が得られます。 どのパラメーターで最適な結果が生成されるかを確認するために、複数のモデルを試してみることをお勧めします。
新しいモデルはすべて、使用前に処理する必要があることに注意してください。
新しいマイニング モデルでの列の使用方法の指定
既存のマイニング構造に新しいマイニング モデルを追加するときには、データの各列をモデルでどのように使用するかを指定する必要があります。 モデルのために選択したアルゴリズムの種類によっては、それらの選択の一部が既定で行われる場合があります。 列の使用法を指定しないと、列はマイニング構造に含まれません。 ただし、モデルでドリルスルーがサポートされていれば、その列のデータをドリルスルーで引き続き使用できます。
モデルによって使用されるマイニング構造の列は ([無視] に設定されていない場合)、キー、入力列、予測可能列、またはモデルへの入力としても使用される値を持つ予測可能列である必要があります。
キー列には、テーブルの行ごとに一意識別子が含まれます。 シーケンス クラスター アルゴリズムやタイム シリーズ アルゴリズムに基づいたマイニング モデルなどでは、複数のキー列を含めることができます。 ただし、これらの複数のキーは、リレーショナルな意味では複合キーではありませんが、時系列およびシーケンス クラスター分析をサポートするために選択する必要があります。
入力列は、予測を行うための情報を提供します。 データ マイニング ウィザードでは、予測可能列を選択した場合に使用できる [候補検索] 機能が提供されています。 このボタンをクリックすると、ウィザードが予測可能な値をサンプリングし、構造内の他のどの列が適切な変数になるかを判別します。 キー列や、一意の値が多い他の列は除外され、結果との関連性があることがわかった列が提示されます。
この機能は、マイニング モデルの構築には必要がない列もデータセットに含まれている場合に、特に便利です。 [候補検索] 機能では、データセット内の各列と予測可能列の間のリレーションシップを説明する 0 ~ 1 の数値スコアが計算されます。 このスコアに基づいて、マイニング モデルの入力として使用する列が提示されます。 [候補検索] 機能を使用する場合は、提示された列を使用するか、必要に応じて選択を変更するか、または提示を無視することができます。
予測可能列には、マイニング モデルで予測しようとする情報が含まれています。 予測可能な属性として、複数の列を選択できます。 予測可能な属性がオプションである点で、クラスタリング モデルは例外です。
モデルの種類によっては、予測可能列は特定のデータ型でなければならない場合があります。たとえば、線形回帰モデルでは予測値として数値列が必要であり、Naïve Bayes アルゴリズムでは不連続値が必要です (すべての入力も不連続である必要があります)。
列のコンテンツの指定
一部の列に対しては、列のコンテンツも指定する必要があります。 SQL Server のデータ マイニングでは、各データ列の Content Type プロパティによって、その列のデータの処理方法をアルゴリズムに指示します。 たとえば、Income 列がデータにある場合、コンテンツの種類を Continuous に設定することによって、連続する数値が列に含まれていることを示す必要があります。 一方、コンテンツの種類を Discretized に設定し、必要に応じて正確なバケット数を指定することによって、Income 列内の数値を複数のバケットにグループ化するよう指定することもできます。 列の処理方法が異なる複数のモデルを作成できます。たとえば、あるモデルでは顧客を 3 つの年齢層のバケットに分け、別のモデルでは顧客を 10 の年齢層のバケットに分けることができます。
関連項目
概念
マイニング構造 (Analysis Services - データ マイニング)