予測モデルのカスタマイズと処理 (中級者向けデータ マイニング チュートリアル)
Microsoft タイム シリーズ アルゴリズムには、モデルの作成方法と時間データの分析方法に影響するいくつかのパラメータがあります。これらのプロパティを変更することで、マイニング モデルでの予測の作成方法を制御できます。
チュートリアルのこの作業では、パラメータを次のように変更します。
- Forecasting モデルの PERIODICITY_HINT パラメータの値を調整します。このパラメータは、データのパターンが繰り返される頻度に関するアルゴリズム情報を提供します。AdventureWorks DW2008 のデータは月単位でパターン化され、1 年周期で変化します。したがって、12 の値ごとに 1 つのパターンが繰り返されるように指定するために、PERIODICITY_HINT パラメータを 12 に設定します。
SQL Server 2008 で Microsoft タイム シリーズ アルゴリズムに対する拡張の一部として導入された 2 つの重要なパラメータの設定も確認します。
FORECAST_METHOD パラメータは、タイム シリーズ アルゴリズムが短期予測と長期予測のどちら向けに最適化されるかを制御します。既定では、FORECAST_METHOD パラメータは MIXED に設定されます。この場合、2 種類の予測アルゴリズムが組み合わされ、短期予測と長期予測の両方がバランスよく実行されます。
PREDICTION_SMOOTHING パラメータは、長期予測と短期予測の混合比を制御します。既定では、このパラメータは 0.5 に設定されます。一般には、これが全体的な精度を確保するための最適なバランスです。
変更が完了したら、モデルを処理します。
アルゴリズム パラメータを変更するには
[マイニング モデル] タブで [Forecasting] を右クリックし、[アルゴリズム パラメータの設定] をクリックします。
[アルゴリズム パラメータ] ダイアログ ボックスの [PERIODICITY_HINT] 行で、[値] 列をクリックし、「{12}」と中かっこも含めて入力します。
[FORECAST_METHOD] 行で、[値] ボックスが空白のままか、MIXED に設定されているかを確認します。別の値が入力されている場合は、「MIXED」と入力してパラメータを既定値に戻します。
[PREDICTION_SMOOTHING] 行で、[値] ボックスが空白か、0.5 に設定されているかを確認します。別の値が入力されている場合は、[値] をクリックし、「0.5」と入力してパラメータを既定値に戻します。
注意 PREDICTION_SMOOTHING パラメータは、SQL Server Enterprise Edition でのみ使用できます。したがって、SQL Server Standard Edition では PREDICTION_SMOOTHING パラメータの値を表示または変更できません。ただし、既定の動作は同じです。
[OK] をクリックします。
予測モデルを処理するには
BI Development Studio で、[マイニング モデル] メニューの [マイニング構造および全モデルの処理] をクリックします。
プロジェクトをビルドして配置するかどうかを確認する警告で、[はい] をクリックします。
[マイニング構造の処理 - Forecasting] ダイアログ ボックスで [実行] をクリックします。
[処理の進行状況] ダイアログ ボックスが開き、モデル処理に関する情報が表示されます。モデルの処理には、時間がかかることがあります。
処理が完了したら、[閉じる] をクリックして [処理の進行状況] ダイアログ ボックスを終了します。
もう一度 [閉じる] をクリックして、[マイニング構造の処理 - Forecasting] ダイアログ ボックスを終了します。
不足データの処理 (オプション)
売上データに NULL で埋められたギャップ (途切れ) が含まれていたり、店舗からのレポートが期限に間に合わなかったために系列の終了時点で空のセルが残されたりすることがよくあります。このような場合は、Analysis Services から次のエラーが表示されてモデルが処理されません。
"エラー (データ マイニング): 系列 <系列名> (マイニング モデル <モデル名>) で始まるタイム スタンプが同期されていません。すべての時系列は同一の時点で終了する必要があります。また、データ消失点をそれぞれが任意に持つこともできません。MISSING_VALUE_SUBSTITUTION パラメータを Previous または数値定数に設定すると、可能な場所にデータ消失点が自動的に設定されます。"
このエラーを回避するには、次の方法で、ギャップを埋めるための新しい値が Analysis Services から自動的に提供されるように指定することができます。
平均値を使用する。平均は、同じデータ系列のすべての有効値を使用して計算されます。
前の値を使用する。複数の不足セルに前の値を割り当てることは可能ですが、開始値を埋めることはできません。
指定した定数値を使用する。
値の平均を計算してギャップを埋めるように指定するには
[マイニング モデル] タブで [Forecasting] 列を右クリックし、[アルゴリズム パラメータの設定] をクリックします。
[アルゴリズム パラメータ] ダイアログ ボックスの [MISSING_VALUE_SUBSTITUTION] 行で、[値] 列をクリックし、「Mean」と入力します。