次の方法で共有


データ マイニング ウィザード (Analysis Services - データ マイニング)

MicrosoftSQL ServerAnalysis Services のデータ マイニング ウィザードは、新しいマイニング構造をデータ マイニング プロジェクトに追加するたびに起動します。このウィザードでは、新しいマイニング構造を定義することができ、データ マイニングに使用するデータ ソースが自動的に選択されます。また、マイニング構造内のデータをトレーニング セットとテスト セットにパーティション分割して、それぞれの構造の初期マイニング モデルを追加できます。

マイニング構造のコンテンツは、既存のデータ ソース ビューまたはキューブから取得されます。マイニング構造に含める列を選択できます。その構造に基づいているすべてのモデルでこれらの列を使用できます。データ マイニング モデルのユーザーがマイニング モデルの結果からドリル ダウンして、マイニング モデル自体に含まれていなかった追加のマイニング構造列を確認できるようにすることができます。

データ マイニング ウィザードを使用してデータ マイニング構造およびモデルを作成する場合は、次の項目を決定する必要があります。

  • データ マイニング構造およびモデルを、リレーショナル データベースから作成するか、または OLAP データベースの既存のキューブから作成するか。

  • どれだけの量のデータをトレーニングで使用するか、およびどれだけの量のデータをテスト用に確保するか。マイニング構造をトレーニング データセットとテスト データセットにパーティション分割する場合、その構造に基づいているすべてのモデルでそのテスト セットを使用できます。

  • どの列または属性を予測に使用するか、およびどの列または属性を分析の入力として使用するか。それぞれの構造には、ケース レコードを一意に識別するキーも格納されている必要があります。

  • どのアルゴリズムを使用するか。SQL ServerAnalysis Services に用意されているアルゴリズムはそれぞれに特性が異なり、生成する結果も異なります。異なるアルゴリズムを使用して複数のモデルを作成したり、アルゴリズムのパラメータを変更して異なるモデルを作成したりできます。

データ マイニング ウィザードには、これらの項目を決定する際に役立つ以下の機能があります。

  • ケース セットを定義するためのウィザード ページ。リレーショナル データ ソースからケース テーブルおよび入れ子になったテーブルを選択するか、または OLAP データ ソースを選択してからケース キーおよびケース レベル列を選択し、必要に応じてキューブにフィルタを設定します。

  • 列内のデータを分析し、列の使用法を推奨するダイアログ ボックス。

  • 列のコンテンツの種類およびデータ型を自動検出する機能。

  • キューブの自動スライス機能 (マイニング モデルが OLAP データ ソースに基づいている場合)。

データ マイニング ウィザードを完了したら、データ マイニング デザイナを使用してマイニング構造およびモデルを変更し、モデルの精度の表示、構造およびモデルの特性の表示、またはモデルを使用した予測の作成を行います。

詳細情報 :データ マイニング デザイナ

データ マイニング ウィザードの使用

データ マイニング ウィザードを起動するには、ソリューション エクスプローラまたは Business Intelligence Development Studio の [プロジェクト] メニューを使用して、新しいマイニング構造を Analysis Services プロジェクトに追加します。

データ マイニング ウィザードは、使用するデータ ソースがリレーショナルかキューブ内にあるかに応じて、2 つに分岐します。

  • リレーショナル マイニング モデル

  • OLAP マイニング モデル

注意注意

データ マイニングを行うためにキューブまたは OLAP データベースは必要ありません。データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データ マイニングにはリレーショナル テーブルまたはデータ ソースを使用することをお勧めします。

リレーショナル マイニング モデル

Analysis Services のリレーショナル データ ソースからマイニング モデルを作成する場合は、まずデータ マイニング ウィザードで、既存のリレーショナル データベースを使用してモデルの構造を定義することを指定します。マイニング構造のみを作成したり、マイニング構造とそれに関連するデータ マイニング モデルを 1 つ作成したりできます。マイニング モデルを作成することを選択した場合は、目的のデータ マイニング分析の種類に最適なアルゴリズムを選択して、使用するデータ マイニング技法を指定する必要があります。

詳細情報 :データ マイニング アルゴリズム (Analysis Services - データ マイニング)

データ ソース ビューとテーブルの種類の指定

次に、ウィザードで、マイニング構造を定義するための特定のデータ ソース ビューを選択し、ケース テーブルを指定します。ケース テーブルは、データ マイニング モデルのトレーニング用として使用されます。また、必要に応じてテスト用としても使用されます。入れ子になったテーブルを指定することもできます。

ケース テーブルの選択は、重要な決定事項です。ケース テーブルには、分析するエンティティ (たとえば顧客とその人口統計情報) が格納されている必要があります。通常、入れ子になったテーブルには、ケース テーブル内のエンティティに関する追加情報 (たとえば顧客によって行われた取引) や、エンティティと多対一の関係を持つ属性が格納されます。たとえば、Customers ケース テーブルに結合されている入れ子になったテーブルには、各顧客によって購入された製品のリストや、趣味のリストが含まれています。詳細情報 :入れ子になったテーブル (Analysis Services - データ マイニング)

列の使用法の指定

ケース テーブルと入れ子になったテーブルを指定したら、マイニング構造に含めるテーブルの列ごとに使用法を決定します。列の使用法を指定しないと、列はマイニング構造に含まれません。

データ マイニング列は、キー列、入力列、予測可能列、または入力列と予測可能列の組み合わせの 4 種類のいずれかです。キー列には、テーブルの行ごとに一意識別子が含まれます。シーケンス クラスタ アルゴリズムやタイム シリーズ アルゴリズムに基づいたマイニング モデルなどでは、複数のキー列を含めることができます。ただし、これらの複数のキーは、リレーショナルな意味では複合キーではありませんが、時系列およびシーケンス クラスタ分析をサポートするために選択する必要があります。詳細については、「Microsoft タイム シリーズ アルゴリズム」または「Microsoft シーケンス クラスタ アルゴリズム」を参照してください。

入力列は、予測を行うための情報を提供します。予測可能列には、マイニング モデルで予測しようとする情報が含まれています。

たとえば、一連のテーブルに、顧客 ID、人口統計情報、および特定の店で各顧客が使う金額を含めることができます。顧客 ID は顧客を一意に識別し、ケース テーブルを入れ子になったテーブルに関連付けるので、顧客 ID をキー列として使用します。人口統計情報からの選択した列を入力列として使用し、各顧客が使う金額を示す列を予測可能列として使用できます。これにより、顧客が 1 つの店で使う金額に人口統計を関連付けるマイニング モデルを作成できます。このモデルはターゲット マーケティングのベースとして使用できます。

データ マイニング ウィザードでは、予測可能列を選択した場合に使用できる [候補検索] 機能が提供されています。多くの場合、データセットには、マイニング モデルの作成に必要な列よりも多くの列が含まれます。[候補検索] 機能では、データセット内の各列と予測可能列の間のリレーションシップを説明する 0 ~ 1 の数値スコアが計算されます。このスコアに基づいて、マイニング モデルの入力として使用する列が提示されます。[候補検索] 機能を使用する場合は、提示された列を使用するか、必要に応じて選択を変更するか、または提示を無視することができます。

コンテンツの種類とデータ型の指定

1 つまたは複数の予測可能列と入力列を選択したら、列ごとにコンテンツの種類とデータ型を指定できます。

詳細情報 :データ型 (データ マイニング)」、「コンテンツの種類 (データ マイニング)

トレーニング セットとテスト セットへのデータの分割

ウィザードを完了する前の最後の手順では、データをトレーニング セットとテスト セットにパーティション分割します。データの一部をテスト用に提示するこの機能は SQL Server 2008 の新機能であり、新しいマイニング構造に関連するすべてのマイニング モデルに使用可能な、一貫したテスト データのセットを確保するための使いやすい機構を提供します。

テスト用に使用するデータの割合を指定できます。その場合、残りのデータは、すべてトレーニング用に使用されます。テストに使用するケースの数を指定することもできます。パーティションの定義はマイニング構造と一緒に格納されます。これにより、構造に基づいて新しいモデルを作成するときに、このテスト データセットを使用してモデルの精度を評価できるようになります。

詳細情報 :データ マイニング モデルの検証 (Analysis Services - データ マイニング)」、「トレーニング セットとテスト セットへのデータのパーティション分割 (Analysis Services - データ マイニング)

ウィザードの完了

ウィザードでの最後の手順として、マイニング構造と関連マイニング モデルに名前を付けます。[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。これにより、適切な権限を持つユーザーが、モデルの作成に使用するソース データを調査できるようになります。

詳細情報 :マイニング モデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データ マイニング)

トップに戻る

OLAP マイニング モデル

Analysis Services の OLAP データ ソースから多次元マイニング モデルを作成する場合は、まずデータ マイニング ウィザードで、既存のキューブを使用してモデルの構造を定義する必要があることを指定します。マイニング構造のみを作成したり、マイニング構造とそれに関連するデータ マイニング モデルを 1 つ作成したりできます。マイニング モデルを作成することを選択した場合は、ビジネス上の問題に最適なアルゴリズムを選択して、使用するデータ マイニング技法を指定する必要があります。

詳細情報 :データ マイニング アルゴリズム (Analysis Services - データ マイニング)

データ ソースとケース キーの指定

次に、マイニング構造を定義するためのデータ ソースとして使用するキューブ ディメンションを選択します。マイニング モデルのキー (ケース キー) として使用する属性を選択します。

注意注意

作成する OLAP マイニング モデルと、モデルの作成に使用するソース キューブは、同じ Analysis Services データベースに含まれている必要があります。

ケース レベル列と列の使用法の指定

ケース キーを選択すると、そのキーに関連付けられている属性およびメジャーが、ウィザードの次のページにあるツリー ビューに表示されます。この一覧から、構造の列として使用する属性およびメジャーを選択します。これらの列は、ケース レベル列と呼ばれます。リレーショナル モデルと同様に、ウィザードの次のページで、構造での各列の使用法も指定する必要があります。列は、キー列、入力列、予測可能列、入力列および予測可能列、または未選択にすることができます。

入れ子になったテーブルの追加

データ マイニング ウィザードの OLAP 分岐には、入れ子になったテーブルをマイニング モデル構造に追加するためのオプションが含まれています。ウィザードの [マイニング モデル列の使用法の指定] ページで、[入れ子になっているテーブルの追加] をクリックして、入れ子になったテーブルを追加する手順を案内する、別のダイアログ ボックスを開きます。ディメンションに適用されるメジャー グループのみが表示されます。ケース ディメンションの外部キーを含むメジャー グループを選択します。次に、メジャー グループの各列の使用法を、入力列または予測可能列に指定します。ウィザードによって、入れ子になったテーブルがケース テーブルに追加されます。入れ子になったテーブルの既定の名前は、入れ子になったディメンション名ですが、入れ子になったテーブルとその列は名前を変更できます。詳細情報 :入れ子になったテーブル (Analysis Services - データ マイニング)

コンテンツの種類とデータ型の指定

1 つまたは複数の予測可能列と入力列を選択したら、列ごとにコンテンツの種類とデータ型を指定できます。

詳細情報 :データ型 (データ マイニング)」、「コンテンツの種類 (データ マイニング)

ソース キューブのスライス

ウィザードの OLAP 分岐で、マイニング モデルをトレーニングする前にソース キューブをスライスすることによって、マイニング モデルのスコープを制限できます。キューブのスライスは、SQL ステートメントへの WHERE 句の追加に似ています。たとえば、キューブに製品の購入に関する情報が含まれている場合、年齢の属性を 31 歳以上、性別の列を女性のみ、購入日を 2000 年 3 月以降に制限できます。このようにすると、年齢が 31 歳以上で、2000 年 3 月以降に製品を購入した女性のスコープが対象になるようにモデルを制限できます。

トレーニング セットとテスト セットへのデータの分割

ウィザードを完了する前の最後の手順では、キューブから取得できるデータをトレーニング セットとテスト セットにパーティション分割します。パーティションの定義はマイニング構造と一緒に格納されます。これにより、構造に基づいて新しいモデルを作成するときに、このテスト データセットを使用してモデルの精度を評価できるようになります。

詳細情報 :データ マイニング モデルの検証 (Analysis Services - データ マイニング)」、「トレーニング セットとテスト セットへのデータのパーティション分割 (Analysis Services - データ マイニング)

ウィザードの完了

ウィザードでの最後の手順として、マイニング構造と関連マイニング モデルに名前を付けます。[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。これにより、適切な権限を持つユーザーが、モデルの作成に使用するソース データを調査できるようになります。マイニング モデルに基づいて新しいディメンションをソース キューブに追加するか、マイニング モデルから新しいキューブを作成するかを指定することもできます。

詳細情報 :マイニング モデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データ マイニング)

トップに戻る