予測モデルのカスタマイズと処理 (中級者向けデータ マイニング チュートリアル)
Microsoft Time Series アルゴリズムには、モデルの作成方法と時間データの分析方法に影響するパラメーターが用意されています。 これらのプロパティを変更すると、マイニング モデルでの予測の作成方法に大きく影響する場合があります。
このチュートリアルでは、次の作業を行ってモデルを変更します。
PERIODICITY_HINT パラメーターに新しい値を追加することで、モデルが期間を処理する方法をカスタマイズします。
Microsoft Time Series アルゴリズムの重要な 2 つのパラメーターについて理解します。FORECAST_METHOD では、予測に使用される方法を制御できます。PREDICTION_SMOOTHING では、長期予測と短期予測の組み合わせをカスタマイズできます。
必要に応じて、不足値を帰属させる方法を指定します。
すべての変更が完了したら、モデルを配置して処理します。
時系列のパラメーターの設定
周期性のヒント
PERIODICITY_HINT パラメーターは、データに表示される予定の追加の期間に関する情報をアルゴリズムに提供します。 時系列モデルでは、既定でデータのパターンの検出が自動的に試行されますが、 予想される周期が既にわかっている場合は、周期性のヒントを指定することでモデルの精度を高めることができます。 ただし、適切でない周期性のヒントを指定すると精度が低下することがあるため、どの値を使用すればよいか確信がない場合は、既定値を使用することをお勧めします。
たとえば、このモデルに使用されるビューは、Adventure Works DW 多次元 2012 の売上データを月単位で集計します。 したがって、このモデルで使用される各タイム スライスは 1 か月を表し、予測もすべて月単位で行われます。 1 年に 12 か月があり、年単位で多かれ少なかれ売上パターンが繰り返されると予想されるため、 PERIODICITY_HINT パラメーターを に 12
設定して、12 個のタイム スライス (月) が 1 つの完全な販売サイクルを構成することを示します。
予測方法
FORECAST_METHOD パラメーターは、時系列アルゴリズムを短期予測と長期予測のどちらに最適化するかを制御します。 既定では、 FORECAST_METHOD パラメーターは MIXED に設定されています。つまり、短期と長期の両方の予測に適した結果を提供するために、2 つの異なるアルゴリズムがブレンドされ、バランスが取られます。
ただし、使用するアルゴリズムが決まっている場合は、ARIMA または ARTXP に値を変更することができます。
重み付けLong-TermとShort-Term予測
PREDICTION_SMOOTHING パラメーターを使用して、長期予測と短期予測の組み合わせ方法をカスタマイズすることもできます。 既定では、このパラメーターは 0.5 に設定されます。一般には、これが全体的な精度を確保するための最適なバランスです。
アルゴリズム パラメーターを変更するには
[ マイニング モデル ] タブで、[ 予測] を右クリックし、[ アルゴリズム パラメーターの設定] を選択します。
PERIODICITY_HINT
[アルゴリズム パラメーター] ダイアログ ボックスの行で、[値] 列をクリックし、中かっこを含めて「 」と入力{12}
します。既定で、値 {1} も追加されます。
行で、[
FORECAST_METHOD
値] テキスト ボックスが空白であるか、 にMIXED
設定されていることを確認します。 別の値が入力されている場合は、「 」と入力MIXED
して、パラメーターを既定値に戻します。[PREDICTION_SMOOTHING] 行で、[値] テキスト ボックスが空白であるか、0.5 に設定されていることを確認します。 別の値が入力されている場合は、[ 値 ] をクリックし、「」と入力
0.5
してパラメーターを既定値に戻します。注意
PREDICTION_SMOOTHING パラメーターは、SQL Server Enterpriseでのみ使用できます。 そのため、SQL Server Standardで PREDICTION_SMOOTHING パラメーターの値を表示または変更することはできません。 ただし、既定の動作では両方のアルゴリズムが使用され、同等の重み付けが行われます。
[OK] をクリックします。
不足データの処理 (オプション)
売上データに NULL で埋められたギャップ (途切れ) が含まれていたり、店舗からのレポートが期限に間に合わなかったために系列の終了時点で空のセルが残されたりすることがよくあります。 このようなシナリオでは、Analysis Services によって次のエラーが発生し、モデルは処理されません。
"エラー (データ マイニング): マイニング モデルの系列<名、モデル<名>>で始まるタイム スタンプが同期されていません。 すべての時系列は同一の時点で終了する必要があります。また、データ消失点をそれぞれが任意に持つこともできません。 MISSING_VALUE_SUBSTITUTION パラメーターを Previous または数値定数に設定すると、可能な場所にデータ消失点が自動的に設定されます。"
このエラーを回避するには、次のいずれかの方法を使用して、Analysis Services がギャップを埋める新しい値を自動的に提供するように指定できます。
平均値を使用する。 平均は、同じデータ系列のすべての有効値を使用して計算されます。
前の値を使用する。 複数の不足セルに前の値を割り当てることは可能ですが、開始値を埋めることはできません。
指定した定数値を使用する。
値の平均を計算してギャップを埋めるように指定するには
[ マイニング モデル ] タブで、[予測] 列 を 右クリックし、[ アルゴリズム パラメーターの設定] を選択します。
[ アルゴリズム パラメーター] ダイアログ ボックスの [MISSING_VALUE_SUBSTITUTION ] 行で、[ 値 ] 列をクリックし、「」と入力します
Mean
。
モデルをビルドする
モデルを使用するには、サーバーにモデルを配置し、アルゴリズムを使用してトレーニング データを実行することでそのモデルを処理する必要があります。
予測モデルを処理するには
SQL Server Data Toolsの [マイニング モデル] メニューで、[マイニング構造とすべてのモデルの処理] を選択します。
プロジェクトをビルドして配置するかどうかを確認する警告が表示されたら、[ はい] をクリックします。
[ プロセス マイニング構造 - 予測 ] ダイアログ ボックスで、[ 実行] をクリックします。
[ プロセスの進行状況 ] ダイアログ ボックスが開き、モデル処理に関する情報が表示されます。 モデルの処理には、時間がかかることがあります。
処理が完了したら、[ 閉じる ] をクリックして [ プロセスの進行状況 ] ダイアログ ボックスを終了します。
もう一度 [ 閉じる ] をクリックして、[ プロセス マイニング構造 - 予測 ] ダイアログ ボックスを終了します。
このレッスンの次の作業
予測モデルの検証 (中級者向けデータ マイニング チュートリアル)
参照
Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス
Microsoft Time Series アルゴリズム
処理の要件および注意事項 (データ マイニング)