次の方法で共有


時系列モデルの要件について (中級者向けデータ マイニング チュートリアル)

予測モデルで使用するデータを準備する際に、時系列内のステップの識別に使用できる列がデータに含まれていることを確認する必要があります。 その列が Key Time 列として指定されて キーになるため、この列には一意の数値が含まれている必要があります。

Key Time 列の右の単位の選択は、分析を行う上で重要な要素になります。 たとえば、売上データを 1 分ごとに更新するとします。 このとき、必ずしも時系列の単位として分を使用する必要はなく、売上データを日、週、または月ごとにロール アップする方が重要です。 どの時間単位を使用すればよいかわからない場合は、各集計のための新しいデータ ソース ビューを作成し、関連モデルを構築することで、集計の各レベルで異なる傾向があるかどうかを確認できます。

このチュートリアルでは、売上データについてはトランザクション売上データベースで毎日収集しますが、データ マイニングのデータについては、事前にビューを使用して月単位で集計します。

分析を行うときは、データのギャップをできるだけ少なくすることも重要です。 複数の系列のデータを分析する場合は、すべての系列の開始日と終了日をできるだけ同じにするようにしてください。 データにギャップがある場合でも、系列の開始時点と終了時点以外のものであれば、MISSING_VALUE_SUBSTITUTION パラメーターを使用して系列を埋めることができます。 Analysis Services には、不足しているデータを値に置き換えるオプションがいくつか用意されています (手段や定数の使用など)。

警告

以前のバージョンのデータ ソース ビュー デザイナーに付属していたピボットグラフおよびピボットテーブルのツールは廃止されました。 Integration Services に含まれる Data Profiler などのツールを使用して、時系列データのギャップを事前に特定することをお勧めします。

予測モデルの時間キーを特定するには

  1. ウィンドウの [SalesByRegion.dsv [デザイン] で、テーブル vTimeSeries を右クリックし、[ データの探索] を選択します。

    [ vTimeSeries テーブルの探索] というタイトルの新しいタブが開きます。

  2. [ テーブル ] タブで、TimeIndex 列と Reporting Date 列で使用されているデータを確認します。

    どちらの列も一意の値を持つシーケンスであり、時系列キーとして使用できますが、列によってデータ型が異なります。 Microsoft Time Series アルゴリズムでは、datetime データ型は必要なく、値が一意であり、順序付けられていることのみが必要とされます。 したがって、どちらの列も予測モデルの時間キーとして使用できます。

  3. データ ソース ビューのデザイン画面で、[レポートの日付] 列を選択し、[ プロパティ] を選択します。 次に、TimeIndex 列をクリックし、[プロパティ] を選択 します

    TimeIndex フィールドのデータ型は System.Int32 ですが、Reporting Date フィールドのデータ型は System.DateTime です。 多くのデータ ウェアハウスでは、インデックス作成のパフォーマンスを高めるために、日付/時刻の値が整数に変換され、その整数列がキーとして使用されます。 ただし、この列を使用した場合、Microsoft Time Series アルゴリズムでは、201014、201014 などの将来の値を使用して予測が行われます。 予定表の日付を使用して売上データ予測を表す必要があるため、一意の系列識別子として [レポート日] 列を使用します。

データ ソース ビューのキーを設定するには

  1. ペイン SalesByRegion.dsv で、vTimeSeries テーブルを選択します。

  2. [レポート日] 列を右クリックし、[ 論理主キーの設定] を選択します。

不足データの処理 (オプション)

系列に不足データがあると、モデルを処理しようとする際にエラーが表示されます。 不足データには、複数の方法で対処することができます。

  • Analysis Services で、平均を計算するか、前の値を使用して、不足した値を埋めることができます。 この操作を行うには、マイニング モデルに MISSING_VALUE_SUBSTITUTION パラメーターを設定します。 このパラメーターの詳細については、「 Microsoft Time Series Algorithm Technical Reference」を参照してください。 既存のマイニング モデルのパラメーターを変更する方法については、「アルゴリズム パラメーターの 表示または変更」を参照してください。

  • データ ソースを変更するか、基になるビューをフィルター処理することで、不規則な系列を除外するか、値を置き換えることができます。 この操作はリレーショナル データ ソースで行うことができます。または、カスタムの名前付きクエリまたは名前付き計算を作成することでデータ ソース ビューを変更できます。 詳細については、 「多次元モデルのデータ ソース ビュー」を参照してください。 このレッスンの後半の作業で、名前付きクエリとカスタム計算の両方を作成する例を示します。

このシナリオでは、ある系列の開始時点でデータの一部が不足しています。具体的には、T1000 製品ラインの 2007 年 7 月までのデータがありません。 その点を除けば、すべての系列は同じ日に終了し、不足値はありません。

Microsoft Time Series アルゴリズムの要件は、1 つのモデルに含めるすべての系列の 終了 点が同じである必要があるということです。 T1000 モデルの自転車は 2007 年に売り出されたため、この系列のデータは他のモデルの自転車よりも開始時点が後になりますが、系列の終了日が同じことにより、データは使用できます。

データ ソース ビュー デザイナーを閉じるには

  • [ vTimeSeries テーブルの探索] タブを右クリックし、[ 閉じる] を選択します。

このレッスンの次の作業

Forecasting 構造およびモデルの作成 (中級者向けデータ マイニング チュートリアル)

参照

Microsoft Time Series アルゴリズム