マイニングモデルとマイニング構造のカスタマイズ

[アーティクル]
03/06/2017

現在のビジネスニーズに合ったアルゴリズムを選択した後、マイニングモデルを次の方法でカスタマイズできます。モデルをカスタマイズすると、より良い結果を得られる場合があります。

モデルで使用するデータ列、または列の使用法や、コンテンツの種類、分離メソッドを変更する。
マイニングモデルに対するフィルターを作成して、モデルのトレーニングに使用するデータを制限する。
データを分析するために使用されたアルゴリズムを変更する。
アルゴリズムパラメーターを設定して、しきい値やツリーの分割などの重要な条件を制御する。

このトピックでは、これらのオプションについて説明します。

モデルで使用するデータの変更

モデルで使用するデータ列や、そのデータの使用方法および処理方法に関する決定は、分析の結果に大きく影響します。以下のトピックには、それらの選択に役立つ情報が含まれています。

機能の選択の使用

Analysis Services のほとんどのデータマイニングアルゴリズムでは、 特徴選択 と呼ばれるプロセスを使用して、モデルに追加するために最も有用な属性のみを選択します。列や属性の数を減らすと、パフォーマンスやモデルの品質を向上させることができます。使用できる機能の選択の方法は、選択するアルゴリズムによって異なります。

機能の選択 (データマイニング)。

使用方法の変更

マイニングモデルに含まれる列と各列の使用方法を変更できます。予期したとおりの結果が得られない場合は、入力として使用した列を調べて、選択した列が適切かどうかを検討する必要があります。さらに、データの処理を向上させるためにできることがあるかどうかについても検討します。たとえば、次のようなことが考えられます。

誤って数値としてラベルが付けられたカテゴリ変数を特定する。
カテゴリを追加して、属性の数を減らし、相関関係をわかりやすくする。
数値をビン分割または分離する方法を変更する。
一意の値が多数含まれている列や実際には参照データであるが分析に適さない列 (住所、ミドルネームなど) を削除する。

マイニング構造から列を物理的に削除する必要はありません。列に [無視] というフラグを付けることができます。列はマイニングモデルから削除されますが、その列は引き続き構造内の他のマイニングモデルで使用することや、ドリルスルークエリで参照することができます。

モデル列の別名の作成

Analysis Services は、マイニングモデルを作成するときに、マイニング構造にあるのと同じ列名を使用します。マイニングモデルのすべての列に、別名を追加できます。こうすると、列の内容や使用法がわかりやすくなったり、名前が短くなるためクエリを作成しやすくなったりします。別名は、列のコピーを作成し、わかりやすい名前を付ける場合にも便利です。

別名を作成するには、マイニングモデル列の Name プロパティを編集します。 Analysis Services では、列の ID として元の名前が引き続き使用され、入力 Name した新しい値が列の別名になり、列の使用法の横にあるかっこで囲まれたグリッドに表示されます。

マイニングモデル列のエイリアスマイニングモデル列

この図には、すべて収入に関連したマイニング構造列の複数のコピーを持つ関連モデルを示しています。構造列のコピーは、それぞれ異なる方法で分離されています。図のモデルでは、それぞれ異なる列をマイニング構造から使用していますが、モデル間で列を比較しやすくするため、各モデルの列名を [収入] に変更しました。

フィルターの追加

マイニングモデルにはフィルターを追加できます。フィルターは、モデルケース内のデータをあるサブセットに制限する一連の WHERE 条件です。フィルターは、モデルのトレーニング時に使用します。必要に応じて、モデルのテスト時や、精度チャートの作成時にも使用できます。

フィルターを追加することによって、マイニング構造を再利用して、広範なデータのサブセットに基づくモデルを作成できます。また、フィルターを使用して、特定の行を除外し、分析の質を高めることもできます。

詳細については、「マイニングモデルのフィルター (Analysis Services - データマイニング)」を参照してください。

アルゴリズムの変更

マイニング構造に追加した新しいモデルが同じデータセットを共有していても、(データでサポートされている) 別のアルゴリズムを使用することや、アルゴリズムのパラメーターを変更することで、異なる結果を得ることができます。また、モデリングフラグを設定することもできます。

アルゴリズムの選択によって、どのような結果が得られるかが決まります。特定のアルゴリズムのしくみ、または特定のアルゴリズムを使用してメリットを得られるビジネスシナリオの一般的な情報については、「データマイニングアルゴリズム (Analysis Services - データマイニング)」を参照してください。

各アルゴリズムの要件、制限、およびサポートされているカスタマイズの詳細については、各アルゴリズムのテクニカルリファレンストピックを参照してください。


Microsoft デシジョンツリーアルゴリズム	Microsoft Time Series アルゴリズム
Microsoft クラスタリングアルゴリズム	Microsoft ニューラルネットワークアルゴリズム
Microsoft Naive Bayes アルゴリズム	Microsoft ロジスティック回帰アルゴリズム
Microsoft アソシエーションアルゴリズム	Microsoft 線形回帰アルゴリズム
Microsoft シーケンスクラスタリングアルゴリズム

アルゴリズムパラメーターのカスタマイズ

各アルゴリズムでは、アルゴリズムの動作をカスタマイズしたり、モデルの結果を細かく調整したりするために使用できるパラメーターがサポートされています。各パラメーターの使用方法については、以下のトピックを参照してください。

これらのトピックには、それぞれのアルゴリズムに基づくモデルで使用できる予測関数の一覧も含まれています。

プロパティ名	適用対象
AUTO_DETECT_PERIODICITY	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
CLUSTER_COUNT	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
CLUSTER_SEED	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
CLUSTERING_METHOD	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
COMPLEXITY_PENALTY	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
FORCE_REGRESSOR	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムテクニカルリファレンスモデリングフラグ (データマイニング)
FORECAST_METHOD	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
HIDDEN_NODE_RATIO	Microsoft Neural Network Algorithm Technical Reference
HISTORIC_MODEL_COUNT	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
HISTORICAL_MODEL_GAP	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
HOLDOUT_PERCENTAGE	Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference 注: このパラメーターは、マイニング構造に適用される提示データ割合値とは異なります。
HOLDOUT_SEED	Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference 注: このパラメーターは、マイニング構造に適用される提示データのシード値とは異なります。
INSTABILITY_SENSITIVITY	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
MAXIMUM_INPUT_ATTRIBUTES	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムテクニカルリファレンス Microsoft Naive Bayes アルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス
MAXIMUM_ITEMSET_COUNT	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MAXIMUM_ITEMSET_SIZE	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MAXIMUM_OUTPUT_ATTRIBUTES	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Naive Bayes アルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference
MAXIMUM_SEQUENCE_STATES	Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
MAXIMUM_SERIES_VALUE	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
MAXIMUM_STATES	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
MAXIMUM_SUPPORT	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MINIMUM_IMPORTANCE	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MINIMUM_ITEMSET_SIZE	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MINIMUM_DEPENDENCY_PROBABILITY	Microsoft Naive Bayes アルゴリズムテクニカルリファレンス
MINIMUM_PROBABILITY	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MINIMUM_SERIES_VALUE	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
MINIMUM_SUPPORT	Microsoft アソシエーションアルゴリズムテクニカルリファレンス Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
MISSING_VALUE_SUBSTITUTION	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
MODELLING_CARDINALITY	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
PERIODICITY_HINT	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
PREDICTION_SMOOTHING	Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
SAMPLE_SIZE	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Neural Network Algorithm Technical Reference
SCORE_METHOD	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス
SPLIT_METHOD	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス
STOPPING_TOLERANCE	Microsoft クラスタリングアルゴリズムテクニカルリファレンス

参照

データマイニングアルゴリズム (Analysis Services - データマイニング)物理アーキテクチャ (Analysis Services - データマイニング)

次の方法で共有

マイニングモデルとマイニング構造のカスタマイズ

モデルで使用するデータの変更

機能の選択の使用

使用方法の変更

モデル列の別名の作成

フィルターの追加

アルゴリズムの変更

アルゴリズムパラメーターのカスタマイズ

参照

その他のリソース

次の方法で共有

マイニング モデルとマイニング構造のカスタマイズ

モデルで使用するデータの変更

機能の選択の使用

使用方法の変更

モデル列の別名の作成

フィルターの追加

アルゴリズムの変更

アルゴリズム パラメーターのカスタマイズ

参照

その他のリソース

マイニングモデルとマイニング構造のカスタマイズ

アルゴリズムパラメーターのカスタマイズ