サンプル データ (SQL Server データ マイニング アドイン)
[データ マイニング]
サンプル データ ウィザードを使用すると、ソース データを 2 つのセットに簡単に分割できます。1 つはモデルを構築 (トレーニング) し、1 つはモデルをテストするためのセットです。 このウィザードでは、ターゲットをより的確に表す新しいデータ セットを作成するために、データをサンプリングし直すこともできます。
モデルのトレーニングとテストのために適切なデータを作成する作業は、データ マイニングの重要な部分ですが、適切なツールがないと面倒になりがちです。 ウィザードは、階層化されたサンプリングを実行して、トレーニング セットとテスト セットが均衡化されるようにします。
ランダム サンプリングとオーバーサンプリング
. モデルのテストに使用するデータが、モデルの作成に使用するデータにほぼ相当するようにする方法としては、ランダム サンプリングが最も適しています。 Excel または外部データ ソースに格納されているデータを、ランダムにサンプリングすることができます。
ランダム サンプリング オプションを使用すると、 サンプル データ ウィザードによってトレーニング データセットとテスト データ セットが自動的に作成され、後で参照できるように個別の Excel ワークシートに出力されます。
外部データ ソースではなく Excel ブックにデータが格納されている場合は、 オーバーサンプリングを使用することもできます。 このオプションを使用する場合は、データ内にほとんど出現しないターゲット値を指定します。すると、ウィザードはターゲット値を多く含む均衡化されたセットを収集します。 目標の割合を達成するか、または一定の行数を作成するように、ウィザードに指示できます。
オーバーサンプリング オプションを使用すると、 サンプル データ ウィザードによって、新しくバランスが取れたサンプル データを含む新しいワークシートが作成されます。
サンプル データ ウィザードの使用
データをトレーニング セットとテスト セットに分割するには
[ データ マイニング ] リボンで、[ サンプル データ] をクリックします。
[ ソース データの選択 ] ページで、パーティション分割する データ が Excel の範囲かテーブルか、外部データ ソースにあるかを指定します。
[ サンプリングの種類の選択 ] ページで、ランダム サンプリングによってトレーニング データ セットとテスト データ セットを作成するか、オーバーサンプリングによって新しいデータ セットを作成するかを指定します。
注意
外部データ ソースを使用する場合は、ランダム サンプリング オプションのみを選択できます。 外部データでオーバーサンプリングを使用する場合は、Excel のデータ接続を使用して Excel ブックにデータをインポートしたうえで、サンプル データ ウィザードを使用します。
選択したサンプリング方法固有のオプションを設定します。
ランダム サンプリングの場合は、テストに使用する元のデータの割合を指定するか、テスト データ セットで使用する合計行数を指定します。
オーバーサンプリングの場合は、重点を置く列と値を選択します。 次に、新しいデータ セットの合計行数を指定し、新しいデータ セットでターゲット値を含んでいる必要がある行の割合を指定します。
オーバーサンプリングのターゲット値は、不連続値でなければなりません。連続する数値データをオーバーサンプリングすることはできません。
[ 完了] ページで、新しいデータ セットの既定の名前をそのまま使用するか、新しい名前を入力します。
ウィザードによって、各データ セット用の新しいワークシートが作成されます。
Excel 用のデータ マイニング クライアントのほとんどのウィザードでは、データをトレーニング セットとテスト セットにランダムに分割できるようになっています。 ただし、これらのウィザードを使用した場合は、データが同じワークシート (または他のデータ ソース) にそのまま保持され、特定の行がテスト ケースかトレーニング ケースかを示す情報が内部に格納されます。 これに対し、 サンプル データ ウィザードを使用すると、簡単に参照できるように、テストデータとトレーニング データが別々のワークシートに出力されます。
関連オプション
ウィザードに従って処理するときは、次のオプションがあります。
オプション | 説明 |
---|---|
[ソース データの選択] ダイアログ ボックス (Excel 用のデータ マイニング クライアント) | データが保存されている Excel 範囲またはテーブルを選択します。 外部データを使用する場合、データはリレーショナルにすることができますが、Analysis Services データ ソースに含める必要があります。 T |
[サンプリングの種類の選択] ページ (Excel 用のデータ マイニング クライアント) | 外部データ ソースを使用する場合は、ランダム サンプリング オプションの使用に制限されます。 また、[行数] オプションを使用して、最終的なデータ セットに作成する 行 数を指定する必要があります。 ソース データの割合を指定することはできません。 |
[ランダム サンプリング] ページ (Excel 用のデータ マイニング クライアント) | 割合または数を指定して、ソースから行をコピーできます。 |
[オーバーサンプリング] ページ (Excel 用のデータ マイニング クライアント) | ターゲットの状態 元のデータ セットでの出現率が低い値を一覧から選択します。 オーバーサンプリングによって、この状態を含むデータ行の割合が高くなります。 サンプル サイズ 抽出する行数の合計を選択します。 この値は、最終的なデータ セットのサイズを表します。 |
その他のサンプリング オプション
このウィザードのサンプリング オプションが目的に合わない場合は、SQL Server Integration Services (SSIS) のサンプリング変換を使用して、複数のデータ ソースから行をサンプリングできます。
詳細については、「 行サンプリング変換 」と「 パーセント サンプリング変換」を参照してください。