比率サンプリング変換

[アーティクル]
05/07/2013

比率サンプリング変換は、変換入力行の比率を選択することにより、サンプルデータセットを作成します。サンプルデータセットとは、変換入力からランダムに行を選択し、その結果、入力のサンプルとなるデータセットのことです。

注
比率サンプリング変換は、指定した比率に加え、サンプル出力に行を含めるかどうかを決定するアルゴリズムを使用します。したがって、サンプル出力の行数は、指定した比率を正確に反映しない場合があります。たとえば、25,000 行の入力データセットに対して 10% を指定した場合、2,500 行のサンプルが生成されず、サンプルの行がこの数を多少前後することがあります。

比率サンプリング変換は、指定した比率に加え、サンプル出力に行を含めるかどうかを決定するアルゴリズムを使用します。したがって、サンプル出力の行数は、指定した比率を正確に反映しない場合があります。たとえば、25,000 行の入力データセットに対して 10% を指定した場合、2,500 行のサンプルが生成されず、サンプルの行がこの数を多少前後することがあります。

比率サンプリング変換は、特にデータマイニングに役立ちます。この変換を使用すると、データセットをランダムに 2 つのデータセットに分割できます。たとえば、1 つをデータマイニングモデルの学習用に、もう 1 つはそのモデルのテスト用に分割します。

また、比率サンプリング変換は、パッケージ開発用のサンプルデータセットを作成するうえで役立ちます。比率サンプリング変換をデータフローに適用すると、データの特性を保持したまま、データセットのサイズを一様に縮小できます。したがって、テストパッケージは、サイズは小さいが代表的なデータセットを使用するため、実行速度は速くなります。

比率サンプリング変換の構成

サンプリングシードを指定して、変換が行の選択に使用する乱数ジェネレーターの動作を変更できます。同じサンプリングシードが使用される場合、この変換は、常に同じサンプル出力を作成します。シードを指定しない場合、この変換はオペレーティングシステムのティック数を使用して乱数を作成します。したがって、パッケージの開発やテスト中に変換結果を確認する際は標準シードを使用するように選択し、パッケージの稼働時にはランダムシードを使用するように変更します。

この変換は、行サンプリング変換と同様です。ただし、行サンプリング変換は、指定する入力行数を選択してサンプルデータセットを作成します。詳細については、「行サンプリング変換」を参照してください。

比率サンプリング変換には、SamplingValue カスタムプロパティがあります。このプロパティは、パッケージの読み込み時にプロパティ式で更新できます。詳細については、「Integration Services (SSIS) の式」、「パッケージでプロパティ式を使用する」、および「変換のカスタムプロパティ」を参照してください。

この変換は、1 つの入力と 2 つの出力をとります。エラー出力はサポートされていません。

プロパティの設定は、SSIS デザイナーから行うか、プログラムによって行います。

[比率サンプリング変換エディター] ダイアログボックスで設定できるプロパティの詳細については、「[比率サンプリング変換エディター]」を参照してください。

[詳細エディター] ダイアログボックスには、プログラムによって設定できるプロパティが反映されます。 [詳細エディター] ダイアログボックスまたはプログラムを使用して設定できるプロパティの詳細については、次のトピックのいずれかを参照してください。

プロパティの設定方法の詳細については、「データフローコンポーネントのプロパティを設定する」を参照してください。

次の方法で共有

比率サンプリング変換

比率サンプリング変換の構成

関連コンテンツ

その他のリソース