あいまいグループ化変換を使用して、類似のデータ行を識別する方法

[アーティクル]
12/15/2008

あいまいグループ化変換を追加して構成するには、パッケージに 1 つ以上のデータフロータスクと 1 つの変換元があらかじめ含まれている必要があります。

データフローにあいまいグループ化変換を実装するには

Business Intelligence Development Studio で、目的のパッケージが含まれている Integration Services プロジェクトを開きます。
ソリューションエクスプローラで、パッケージをダブルクリックして開きます。
[データフロー] タブをクリックし、次に [ツールボックス] で、あいまいグループ化変換をデザイン画面にドラッグします。
あいまいグループ化変換をデータフローに連結します。連結するには、緑または赤の矢印のコネクタを、データソースまたは直前の変換からあいまいグループ化変換にドラッグします。
あいまいグループ化変換をダブルクリックします。
[あいまいグループ化変換エディタ] ダイアログボックスの [接続マネージャ] タブで、SQL Server 2005 データベースに接続する OLE DB 接続マネージャを選択します。

メモ :

この変換では、SQL Server 2005 データベースに接続し、一時テーブルおよびインデックスを作成する必要があります。
[列] タブをクリックし、[使用できる入力列] 一覧で、データセット内で類似の行を識別するために使用する入力列のチェックボックスをオンにします。

メモ :
この変換では、SQL Server 2005 データベースに接続し、一時テーブルおよびインデックスを作成する必要があります。

[パススルー] 列のチェックボックスをオンにし、変換出力に渡す入力列を指定します。パススルー列は、重複する行の識別処理には含まれません。

メモ :
グループ化で使用される入力列は、自動的にパススルー列として選択されます。この入力列は、グループ化で使用されている間は選択解除できません。

必要に応じて、[出力の別名] 列で出力列の名前を更新します。
必要に応じて、[グループ出力の別名] 列で、クリーンにした列の名前を更新します。

メモ :

列の既定の名前は、入力列の名前に "_clean" サフィックスが付いたものとなります。
必要に応じて、[一致の種類] 列で、使用する一致の種類を更新します。

メモ :

少なくとも 1 列では、あいまい一致を使用する必要があります。
[最小類似] 列で、最小の類似レベル列を指定します。この値は、0 から 1 までの値である必要があります。値が 1 に近づくほど、入力列内の値の類似性が高くなり、グループを作成する可能性が高くなります。最小類似が 1 の場合は、完全一致であることを示します。
必要に応じて、[類似出力の別名] 列で、類似列の名前を更新します。
データ値の数値の処理を指定するには、[数字] 列の値を更新します。
変換による列内の文字列データの比較方法を指定するには、[比較フラグ] 列内にある比較オプションの既定の選択を変更します。
[詳細設定] タブをクリックすると、一意の行識別子 (_key_in)、重複の行識別子 (_key_out)、および類似値 (_score) の出力に、変換が追加する列の名前を変更できます。
必要に応じて、スライダバーを移動して類似のしきい値を調整します。
必要に応じて、データ内の区切り記号を無視するように、トークン区切り記号のチェックボックスをオフにします。
[OK] をクリックします。
更新されたパッケージを保存するには、[ファイル] メニューの [選択されたファイルを上書き保存] をクリックします。

メモ :
列の既定の名前は、入力列の名前に "_clean" サフィックスが付いたものとなります。

メモ :
少なくとも 1 列では、あいまい一致を使用する必要があります。

参照

次の方法で共有

あいまいグループ化変換を使用して、類似のデータ行を識別する方法

データフローにあいまいグループ化変換を実装するには

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

次の方法で共有

あいまいグループ化変換を使用して、類似のデータ行を識別する方法

データ フローにあいまいグループ化変換を実装するには

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

データフローにあいまいグループ化変換を実装するには