あいまいグループ化変換を使用して類似のデータ行を識別する

[アーティクル]
05/23/2023

適用対象: SQL Server Azure Data Factory の SSIS Integration Runtime

あいまいグループ化変換を追加して構成するには、パッケージに 1 つ以上のデータフロータスクと 1 つの変換元があらかじめ含まれている必要があります。

データフローにあいまいグループ化変換を実装するには

SQL Server Data Tools (SSDT)で、目的のパッケージが含まれている Integration Services プロジェクトを開きます。
ソリューションエクスプローラーで、パッケージをダブルクリックして開きます。
[データフロー] タブをクリックし、次に [ツールボックス]で、あいまいグループ化変換をデザイン画面にドラッグします。
あいまいグループ化変換をデータフローに連結します。連結するには、データソースまたは直前の変換からあいまいグループ化変換にコネクタをドラッグします。
あいまいグループ化変換をダブルクリックします。
[あいまいグループ化変換エディター] ダイアログボックスの [接続マネージャー] タブで、 SQL Server データベースに接続する OLE DB 接続マネージャーを選択します。

Note

この変換では、 SQL Server データベースに接続し、一時テーブルおよびインデックスを作成する必要があります。
[列] タブをクリックし、 [使用できる入力列] 一覧で、データセット内で類似の行を識別するために使用する入力列のチェックボックスをオンにします。
[パススルー] 列のチェックボックスをオンにし、変換出力に渡す入力列を指定します。パススルー列は、重複する行の識別処理には含まれません。

Note

グループ化で使用される入力列は、自動的にパススルー列として選択されます。この入力列は、グループ化で使用されている間は選択解除できません。
必要に応じて、 [出力の別名] 列で出力列の名前を更新します。
必要に応じて、 [グループ出力の別名] 列で、クリーンにした列の名前を更新します。

Note

列の既定の名前は、入力列の名前に "_clean" サフィックスが付いたものとなります。
必要に応じて、 [一致の種類] 列で、使用する一致の種類を更新します。

Note

少なくとも 1 列では、あいまい一致を使用する必要があります。
[最小類似] 列で、最小の類似レベル列を指定します。この値は、0 から 1 までの値である必要があります。値が 1 に近づくほど、入力列内の値をグループ化するために必要な類似性が高くなります。最小類似が 1 の場合は、完全一致であることを示します。
必要に応じて、 [類似出力の別名] 列で、類似列の名前を更新します。
データ値の数値の処理を指定するには、 [数字] 列の値を更新します。
変換による列内の文字列データの比較方法を指定するには、 [比較フラグ] 列内にある比較オプションの既定の選択を変更します。
[詳細設定] タブをクリックすると、一意の行識別子 (_key_in)、重複の行識別子 (_key_out)、および類似値 (_score) の出力に、変換が追加する列の名前を変更できます。
必要に応じて、スライダーバーを移動して類似のしきい値を調整します。
必要に応じて、データ内の区切り記号を無視するように、トークン区切り記号のチェックボックスをオフにします。
[OK] をクリックします。
更新したパッケージを保存するには、 [ファイル] メニューの [選択されたファイルを上書き保存] をクリックします。

参照

あいまいグループ化変換
 Integration Services の変換
 Integration Services のパス
 データフロータスク

次の方法で共有

あいまいグループ化変換を使用して類似のデータ行を識別する

データフローにあいまいグループ化変換を実装するには

参照

フィードバック

その他のリソース

次の方法で共有

あいまいグループ化変換を使用して類似のデータ行を識別する

データ フローにあいまいグループ化変換を実装するには

参照

フィードバック

その他のリソース

データフローにあいまいグループ化変換を実装するには