マイニング モデルとマイニング構造のカスタマイズ
現在のビジネス ニーズに合ったアルゴリズムを選択した後、マイニング モデルを次の方法でカスタマイズできます。モデルをカスタマイズすると、より良い結果を得られる場合があります。
モデルで使用するデータ列、または列の使用法や、コンテンツの種類、分離メソッドを変更する。
マイニング モデルに対するフィルターを作成して、モデルのトレーニングに使用するデータを制限する。
データを分析するために使用されたアルゴリズムを変更する。
アルゴリズム パラメーターを設定して、しきい値やツリーの分割などの重要な条件を制御する。
このトピックでは、これらのオプションについて説明します。
モデルで使用するデータの変更
モデルで使用するデータ列や、そのデータの使用方法および処理方法に関する決定は、分析の結果に大きく影響します。 以下のトピックには、それらの選択に役立つ情報が含まれています。
機能の選択の使用
Analysis Services のほとんどのデータ マイニング アルゴリズムでは、機能の選択というプロセスを使用して、最も役に立つ属性のみを選択してモデルに追加します。 列や属性の数を減らすと、パフォーマンスやモデルの品質を向上させることができます。 使用できる機能の選択の方法は、選択するアルゴリズムによって異なります。
使用方法の変更
マイニング モデルに含まれる列と各列の使用方法を変更できます。 予期したとおりの結果が得られない場合は、入力として使用した列を調べて、選択した列が適切かどうかを検討する必要があります。さらに、データの処理を向上させるためにできることがあるかどうかについても検討します。たとえば、次のようなことが考えられます。
誤って数値としてラベルが付けられたカテゴリ変数を特定する。
カテゴリを追加して、属性の数を減らし、相関関係をわかりやすくする。
数値をビン分割または分離する方法を変更する。
一意の値が多数含まれている列や実際には参照データであるが分析に適さない列 (住所、ミドル ネームなど) を削除する。
列をマイニング構造から物理的に削除する必要はなく、Ignore というフラグを列に設定するだけです。 列はマイニング モデルから削除されますが、その列は引き続き構造内の他のマイニング モデルで使用することや、ドリルスルー クエリで参照することができます。
モデル列の別名の作成
Analysis Services でマイニング モデルを作成すると、マイニング構造内の列と同じ名前が使用されます。 マイニング モデルのすべての列に、別名を追加できます。こうすると、列の内容や使用法がわかりやすくなったり、名前が短くなるためクエリを作成しやすくなったりします。 別名は、列のコピーを作成し、わかりやすい名前を付ける場合にも便利です。
別名を作成するには、マイニング モデル列の Name プロパティを編集します。 元の名前は列の ID として Analysis Services で引き続き使用され、Name に入力した新しい値が列の別名となります。この別名は、グリッド内で列の使用法の横にかっこで囲まれて表示されます。
この図には、すべて収入に関連したマイニング構造列の複数のコピーを持つ関連モデルを示しています。 構造列のコピーは、それぞれ異なる方法で分離されています。 図のモデルでは、それぞれ異なる列をマイニング構造から使用していますが、モデル間で列を比較しやすくするため、各モデルの列名を [収入] に変更しました。
フィルターの追加
マイニング モデルにはフィルターを追加できます。 フィルターは、モデル ケース内のデータをあるサブセットに制限する一連の WHERE 条件です。 フィルターは、モデルのトレーニング時に使用します。必要に応じて、モデルのテスト時や、精度チャートの作成時にも使用できます。
フィルターを追加することによって、マイニング構造を再利用して、広範なデータのサブセットに基づくモデルを作成できます。 また、フィルターを使用して、特定の行を除外し、分析の質を高めることもできます。
詳細については、「マイニング モデルのフィルター選択 (Analysis Services - データ マイニング)」を参照してください。
アルゴリズムの変更
マイニング構造に追加した新しいモデルが同じデータ セットを共有していても、(データでサポートされている) 別のアルゴリズムを使用することや、アルゴリズムのパラメーターを変更することで、異なる結果を得ることができます。 また、モデリング フラグを設定することもできます。
アルゴリズムの選択によって、どのような結果が得られるかが決まります。 特定のアルゴリズムがどのように動作し、どのようなビジネス シナリオで役立つかについては、「データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。
各アルゴリズムの要件、制限、およびサポートされているカスタマイズの詳細については、各アルゴリズムのテクニカル リファレンス トピックを参照してください。
|
アルゴリズム パラメーターのカスタマイズ
各アルゴリズムでは、アルゴリズムの動作をカスタマイズしたり、モデルの結果を細かく調整したりするために使用できるパラメーターがサポートされています。 各パラメーターの使用方法については、以下のトピックを参照してください。
これらのトピックには、それぞれのアルゴリズムに基づくモデルで使用できる予測関数の一覧も含まれています。
プロパティ名 |
適用対象 |
||
---|---|---|---|
AUTO_DETECT_PERIODICITY |
|||
CLUSTER_COUNT |
|||
CLUSTER_SEED |
|||
CLUSTERING_METHOD |
|||
COMPLEXITY_PENALTY |
|||
FORCE_REGRESSOR |
Microsoft デシジョン ツリー アルゴリズム テクニカル リファレンス |
||
FORECAST_METHOD |
|||
HIDDEN_NODE_RATIO |
|||
HISTORIC_MODEL_COUNT |
|||
HISTORICAL_MODEL_GAP |
|||
HOLDOUT_PERCENTAGE |
Microsoft ロジスティック回帰アルゴリズム テクニカル リファレンス Microsoft ニューラル ネットワーク アルゴリズム テクニカル リファレンス
|
||
HOLDOUT_SEED |
Microsoft ロジスティック回帰アルゴリズム テクニカル リファレンス Microsoft ニューラル ネットワーク アルゴリズム テクニカル リファレンス
|
||
INSTABILITY_SENSITIVITY |
|||
MAXIMUM_INPUT_ATTRIBUTES |
Microsoft クラスタリング アルゴリズム テクニカル リファレンス Microsoft デシジョン ツリー アルゴリズム テクニカル リファレンス Microsoft 線形回帰アルゴリズム テクニカル リファレンス Microsoft Naive Bayes アルゴリズム テクニカル リファレンス |
||
MAXIMUM_ITEMSET_COUNT |
|||
MAXIMUM_ITEMSET_SIZE |
|||
MAXIMUM_OUTPUT_ATTRIBUTES |
Microsoft デシジョン ツリー アルゴリズム テクニカル リファレンス Microsoft 線形回帰アルゴリズム テクニカル リファレンス Microsoft ロジスティック回帰アルゴリズム テクニカル リファレンス |
||
MAXIMUM_SEQUENCE_STATES |
|||
MAXIMUM_SERIES_VALUE |
|||
MAXIMUM_STATES |
Microsoft クラスタリング アルゴリズム テクニカル リファレンス |
||
MAXIMUM_SUPPORT |
|||
MINIMUM_IMPORTANCE |
|||
MINIMUM_ITEMSET_SIZE |
|||
MINIMUM_DEPENDENCY_PROBABILITY |
|||
MINIMUM_PROBABILITY |
|||
MINIMUM_SERIES_VALUE |
|||
MINIMUM_SUPPORT |
Microsoft アソシエーション アルゴリズム テクニカル リファレンス Microsoft クラスタリング アルゴリズム テクニカル リファレンス Microsoft デシジョン ツリー アルゴリズム テクニカル リファレンス |
||
MISSING_VALUE_SUBSTITUTION |
|||
MODELLING_CARDINALITY |
|||
PERIODICITY_HINT |
|||
PREDICTION_SMOOTHING |
|||
SAMPLE_SIZE |
Microsoft クラスタリング アルゴリズム テクニカル リファレンス |
||
SCORE_METHOD |
|||
SPLIT_METHOD |
|||
STOPPING_TOLERANCE |