次の方法で共有


サンプル データ (SQL Server データ マイニング アドイン)

[データ マイニング] リボンの [データ マイニング] リボンの [データ マイニング]

サンプル データ ウィザードを使用すると、ソース データを 2 つのセットに簡単に分割できます。1 つはモデルを構築 (トレーニング) し、1 つはモデルをテストするためのセットです。 このウィザードでは、ターゲットをより的確に表す新しいデータ セットを作成するために、データをサンプリングし直すこともできます。

モデルのトレーニングとテストのために適切なデータを作成する作業は、データ マイニングの重要な部分ですが、適切なツールがないと面倒になりがちです。 ウィザードは、階層化されたサンプリングを実行して、トレーニング セットとテスト セットが均衡化されるようにします。

ランダム サンプリングとオーバーサンプリング

. モデルのテストに使用するデータが、モデルの作成に使用するデータにほぼ相当するようにする方法としては、ランダム サンプリングが最も適しています。 Excel または外部データ ソースに格納されているデータを、ランダムにサンプリングすることができます。

ランダム サンプリング オプションを使用すると、 サンプル データ ウィザードによってトレーニング データセットとテスト データ セットが自動的に作成され、後で参照できるように個別の Excel ワークシートに出力されます。

外部データ ソースではなく Excel ブックにデータが格納されている場合は、 オーバーサンプリングを使用することもできます。 このオプションを使用する場合は、データ内にほとんど出現しないターゲット値を指定します。すると、ウィザードはターゲット値を多く含む均衡化されたセットを収集します。 目標の割合を達成するか、または一定の行数を作成するように、ウィザードに指示できます。

オーバーサンプリング オプションを使用すると、 サンプル データ ウィザードによって、新しくバランスが取れたサンプル データを含む新しいワークシートが作成されます。

サンプル データ ウィザードの使用

データをトレーニング セットとテスト セットに分割するには

  1. [ データ マイニング ] リボンで、[ サンプル データ] をクリックします。

  2. [ ソース データの選択 ] ページで、パーティション分割する データ が Excel の範囲かテーブルか、外部データ ソースにあるかを指定します。

  3. [ サンプリングの種類の選択 ] ページで、ランダム サンプリングによってトレーニング データ セットとテスト データ セットを作成するか、オーバーサンプリングによって新しいデータ セットを作成するかを指定します。

    注意

    外部データ ソースを使用する場合は、ランダム サンプリング オプションのみを選択できます。 外部データでオーバーサンプリングを使用する場合は、Excel のデータ接続を使用して Excel ブックにデータをインポートしたうえで、サンプル データ ウィザードを使用します。

  4. 選択したサンプリング方法固有のオプションを設定します。

    • ランダム サンプリングの場合は、テストに使用する元のデータの割合を指定するか、テスト データ セットで使用する合計行数を指定します。

    • オーバーサンプリングの場合は、重点を置く列と値を選択します。 次に、新しいデータ セットの合計行数を指定し、新しいデータ セットでターゲット値を含んでいる必要がある行の割合を指定します。

      オーバーサンプリングのターゲット値は、不連続値でなければなりません。連続する数値データをオーバーサンプリングすることはできません。

  5. [ 完了] ページで、新しいデータ セットの既定の名前をそのまま使用するか、新しい名前を入力します。

    ウィザードによって、各データ セット用の新しいワークシートが作成されます。

Excel 用のデータ マイニング クライアントのほとんどのウィザードでは、データをトレーニング セットとテスト セットにランダムに分割できるようになっています。 ただし、これらのウィザードを使用した場合は、データが同じワークシート (または他のデータ ソース) にそのまま保持され、特定の行がテスト ケースかトレーニング ケースかを示す情報が内部に格納されます。 これに対し、 サンプル データ ウィザードを使用すると、簡単に参照できるように、テストデータとトレーニング データが別々のワークシートに出力されます。

ウィザードに従って処理するときは、次のオプションがあります。

オプション 説明
[ソース データの選択] ダイアログ ボックス (Excel 用のデータ マイニング クライアント) データが保存されている Excel 範囲またはテーブルを選択します。 外部データを使用する場合、データはリレーショナルにすることができますが、Analysis Services データ ソースに含める必要があります。 T
[サンプリングの種類の選択] ページ (Excel 用のデータ マイニング クライアント) 外部データ ソースを使用する場合は、ランダム サンプリング オプションの使用に制限されます。 また、[行数] オプションを使用して、最終的なデータ セットに作成する 数を指定する必要があります。 ソース データの割合を指定することはできません。
[ランダム サンプリング] ページ (Excel 用のデータ マイニング クライアント) 割合または数を指定して、ソースから行をコピーできます。
[オーバーサンプリング] ページ (Excel 用のデータ マイニング クライアント) ターゲットの状態

元のデータ セットでの出現率が低い値を一覧から選択します。 オーバーサンプリングによって、この状態を含むデータ行の割合が高くなります。

サンプル サイズ

抽出する行数の合計を選択します。 この値は、最終的なデータ セットのサイズを表します。

その他のサンプリング オプション

このウィザードのサンプリング オプションが目的に合わない場合は、SQL Server Integration Services (SSIS) のサンプリング変換を使用して、複数のデータ ソースから行をサンプリングできます。

詳細については、「 行サンプリング変換 」と「 パーセント サンプリング変換」を参照してください。

参照

データ マイニングの準備のチェック リスト