マイニングモデルとマイニング構造のカスタマイズ

[アーティクル]
07/30/2013

現在のビジネスニーズに合ったアルゴリズムを選択した後、マイニングモデルを次の方法でカスタマイズできます。モデルをカスタマイズすると、より良い結果を得られる場合があります。

モデルで使用するデータ列、または列の使用法や、コンテンツの種類、分離メソッドを変更する。
マイニングモデルに対するフィルターを作成して、モデルのトレーニングに使用するデータを制限する。
データを分析するために使用されたアルゴリズムを変更する。
アルゴリズムパラメーターを設定して、しきい値やツリーの分割などの重要な条件を制御する。

このトピックでは、これらのオプションについて説明します。

モデルで使用するデータの変更

モデルで使用するデータ列や、そのデータの使用方法および処理方法に関する決定は、分析の結果に大きく影響します。以下のトピックには、それらの選択に役立つ情報が含まれています。

機能の選択の使用

Analysis Services のほとんどのデータマイニングアルゴリズムでは、機能の選択というプロセスを使用して、最も役に立つ属性のみを選択してモデルに追加します。列や属性の数を減らすと、パフォーマンスやモデルの品質を向上させることができます。使用できる機能の選択の方法は、選択するアルゴリズムによって異なります。

機能の選択 (データマイニング).

使用方法の変更

マイニングモデルに含まれる列と各列の使用方法を変更できます。予期したとおりの結果が得られない場合は、入力として使用した列を調べて、選択した列が適切かどうかを検討する必要があります。さらに、データの処理を向上させるためにできることがあるかどうかについても検討します。たとえば、次のようなことが考えられます。

誤って数値としてラベルが付けられたカテゴリ変数を特定する。
カテゴリを追加して、属性の数を減らし、相関関係をわかりやすくする。
数値をビン分割または分離する方法を変更する。
一意の値が多数含まれている列や実際には参照データであるが分析に適さない列 (住所、ミドルネームなど) を削除する。

列をマイニング構造から物理的に削除する必要はなく、Ignore というフラグを列に設定するだけです。列はマイニングモデルから削除されますが、その列は引き続き構造内の他のマイニングモデルで使用することや、ドリルスルークエリで参照することができます。

モデル列の別名の作成

Analysis Services でマイニングモデルを作成すると、マイニング構造内の列と同じ名前が使用されます。マイニングモデルのすべての列に、別名を追加できます。こうすると、列の内容や使用法がわかりやすくなったり、名前が短くなるためクエリを作成しやすくなったりします。別名は、列のコピーを作成し、わかりやすい名前を付ける場合にも便利です。

別名を作成するには、マイニングモデル列の Name プロパティを編集します。元の名前は列の ID として Analysis Services で引き続き使用され、Name に入力した新しい値が列の別名となります。この別名は、グリッド内で列の使用法の横にかっこで囲まれて表示されます。

マイニングモデル列の別名

この図には、すべて収入に関連したマイニング構造列の複数のコピーを持つ関連モデルを示しています。構造列のコピーは、それぞれ異なる方法で分離されています。図のモデルでは、それぞれ異なる列をマイニング構造から使用していますが、モデル間で列を比較しやすくするため、各モデルの列名を [収入] に変更しました。

フィルターの追加

マイニングモデルにはフィルターを追加できます。フィルターは、モデルケース内のデータをあるサブセットに制限する一連の WHERE 条件です。フィルターは、モデルのトレーニング時に使用します。必要に応じて、モデルのテスト時や、精度チャートの作成時にも使用できます。

フィルターを追加することによって、マイニング構造を再利用して、広範なデータのサブセットに基づくモデルを作成できます。また、フィルターを使用して、特定の行を除外し、分析の質を高めることもできます。

詳細については、「マイニングモデルのフィルター選択 (Analysis Services - データマイニング)」を参照してください。

アルゴリズムの変更

マイニング構造に追加した新しいモデルが同じデータセットを共有していても、(データでサポートされている) 別のアルゴリズムを使用することや、アルゴリズムのパラメーターを変更することで、異なる結果を得ることができます。また、モデリングフラグを設定することもできます。

アルゴリズムの選択によって、どのような結果が得られるかが決まります。特定のアルゴリズムがどのように動作し、どのようなビジネスシナリオで役立つかについては、「データマイニングアルゴリズム (Analysis Services - データマイニング)」を参照してください。

各アルゴリズムの要件、制限、およびサポートされているカスタマイズの詳細については、各アルゴリズムのテクニカルリファレンストピックを参照してください。

Microsoft デシジョンツリーアルゴリズム	Microsoft タイムシリーズアルゴリズム
Microsoft クラスタリングアルゴリズム	Microsoft ニューラルネットワークアルゴリズム
Microsoft Naive Bayes アルゴリズム	Microsoft ロジスティック回帰アルゴリズム
Microsoft アソシエーションアルゴリズム	Microsoft 線形回帰アルゴリズム
Microsoft シーケンスクラスターアルゴリズム