유사 항목 그룹화를 변환
적용 대상: SQL Server Azure Data Factory의 SSIS Integration Runtime
유사 항목 그룹화 변환은 중복될 가능성이 있는 데이터 행을 식별해 주며 데이터를 표준화기 위해 사용할 정식 데이터 행을 선택하여 데이터 정리 작업을 실행하는 것입니다.
참고 항목
성능 및 메모리 제한 사항을 포함하여 유사 항목 그룹화 변환에 대한 자세한 내용은 Fuzzy Lookup and Fuzzy Grouping in SQL Server Integration Services 2005(SQL Server Integration Services 2005에서 유사 항목 조회 및 유사 항목 그룹화) 백서를 참조하세요.
유사 항목 그룹화 변환에는 변환 알고리즘이 작업을 실행하는데 필요한 임시 테이블을 만들기 위해 인스턴스의 연결이 필요합니다. 연결은 데이터터베이스에 테이블을 만들수 있는 권한을 가지고 있는 사용자로 확인되어야 합니다.
변환을 구성하려면 중복을 식별하는 데 사용할 입력 열을 선택하고 각 열에 대해 일치 유형으로 유사 항목 일치 또는 정확한 일치를 선택해야 합니다. 정확히 일치하다면 해당 열에 동일한 값을 갖고 있는 행만 그룹화되는 것입니다. DT_TEXT, DT_NTEXT 및 DT_IMAGE를 제외한 모든 Integration Services 데이터 형식의 열에 정확한 일치를 적용할 수 있습니다. 유사 항목 일치는 거의 동일한 값을 갖고 있는 행이 그룹화되는 것입니다. 데이터의 대략적인 일치 방법은 사용자가 지정해 놓은 유사성 점수를 바탕으로 이루어지는 것입니다. 유사 항목 일치에는 DT_WSTR 및 DT_STR 데이터 유형을 갖고 있는 열만 사용될 수 있습니다. 자세한 내용은 Integration Services 데이터 형식을 참조하세요.
변환 출력에는 모든 입력 열, 표준화된 데이터를 가진 한 개 이상의 열 및 유사성 점수를 가진 열이 포함됩니다. 점수는 0과 1 사이의 10진수 값입니다. 정식 행의 점수는 1입니다. 유사 항목 그룹의 다른 행에는 행이 정식 행과 얼마나 잘 일치되는지를 나타내주는 점수가 있습니다. 점수가 1에 가까울수록 행이 정식 행과 더 가깝게 일치한 것입니다. 유사 항목 그룹에 정식 행과 정확하게 중복되는 행이 포함된 경우 이러한 행의 점수도 1입니다. 변환은 중복 행을 제거하지 않습니다. 정식 행과 비슷한 행을 연결해 주는 키를 만들어 그룹화하는 것입니다.
변환에서는 각 입력 열당 다음 추가 열을 포함하여 한 개의 출력 행을 생성합니다.
_key_in열, 각 행을 고유하게 식별합니다.
_key_out열, 중복 행의 그룹을 식별합니다. _key_out 열에는 정식 데이터 행의 _key_in 열 값을 갖고 있습니다. _key_out 값을 갖고 있는 행은 동일한 그룹의 일부인 것입니다. 그룹의 _key_out 열은 정식 데이터 행의 _key_in 값에 해당되는 것입니다.
_score, 입력 행과 정식 행의 유사성을 나타내주는 0에서 1 사이의 값입니다.
이것들은 기본 열의 이름이며 다른 이름을 사용하기 위한 유사 항목 그룹화 변환을 만들어낼 수 있습니다. 출력에서는 유사 항목 그룹화에 참여하는 각 열에 유사성 점수를 제공합니다.
유사 항목 그룹화 변환에는 실행하는 그룹화 사용자 지정을 하기 위한 두 가지 기능인 토큰 구분 기호 및 유사성 임계값을 포함하고 있습니다. 변환은 데이터를 토큰화하기 위해 사용되는 기본 구분 기호 집합을 제공해 주고는 있지만 데이터를 향상시키기 위해 새로운 토큰 구분 기호를 추가할 수 있습니다.
유사성 임계값은 변환에서 얼마나 엄격하게 중복을 식별하는지를 지정합니다. 유사성 임계값은 구성 요소 및 열 수준에서 설정하시는 것이 가능합니다. 열 수준 유사성 임계값은 유사 항목 일치를 수행하는 열에서만 사용할 수 있습니다. 유사성 범위는 0에서 1 사이입니다. 임계값이 1에 가까워 질수록 중복으로 여겨지기 위해서 행과 열은 더 유사해야 합니다. 구성 요소 및 열 수준에서 MinSimilarity 속성을 설정해서 행과 열 사이에서의 유사성 임계값을 지정해 주세요. 구성 요소 수준에서 지정된 유사성을 충족하기 위해 모든 행의 모든 열에 걸쳐 구성 요소 수준에서 지정된 유사성 임계값보다 크거나 같은 유사성을 가지고 잇어야 하는 것입니다.
유사 항목 그룹화 변환은 내부 유사성 측정값을 계산하며 MinSimilarity에 지정된 값보다 덜 비슷한 행은 그룹화되지 않습니다.
데이터에 적합하게 유사성 임계값을 식별하기 위해 서로 다른 최소 유사성 임계값을 사용하여 유사 항목 그룹화 변환을 여러 번 적용해야 할 수 있습니다. 실행시에 변환 출력의 점수 열에는 그룹의 각 행에 대한 유사성 점수가 포함되어 지는 것입니다. 이러한 값을 사용하여 데이터에 적합한 유사성 임계값을 식별할 수 있습니다. 유사성을 높이는 것을 원하는 경우에 MinSimilarity를 점수 열의 값보다 큰 값으로 설정해야 합니다.
유사 항목 그룹화 변환 입력에서 열의 속성을 설정하여 변환을 실행하는 그룹화 작업을 사용자 지정할 수 있습니다. 예를 들면 FuzzyComparisonFlags 속성은 변환이 열의 문자열 데이터를 비교하는 방법을 지정해 주며 ExactFuzzy 속성은 변환이 유사 항목 일치 혹은 정확한 일치를 수행하고 있는지에 대한 여부를 지정합니다.
유사 항목 그룹화 변환에서 사용하는 메모리 양은 MaxMemoryUsage 사용자 지정 속성을 설정하여 구성할 수 있습니다. 메가바이트수를 지정하거나 값 0을 사용하면 변환에서 해당 요구 사항 및 사용 가능한 실제 메모리에 따라 동적 양의 메모리를 사용할 수 있도록 할 수 있습니다. 패키지가 로드될 때 MaxMemoryUsage 사용자 지정 속성은 속성 식으로 업데이트할 수 있습니다. 자세한 내용은 Integration Services(SSIS) 식, 패키지에서 속성 식 사용 및 변환 사용자 지정 속성을 참조하세요.
이 변환에는 1개의 입력과 1개의 출력이 있습니다. 오류 출력은 지원하지 않습니다.
행 비교
유사 항목 그룹화 변환을 구성할 때 변환에서 변환 입력의 행을 비교하기 위해 사용하는 비교 알고리즘을 지정할 수 있습니다. Exhaustive 속성을 True로 설정하는 경우에 변환은 입력의 모든 행을 참조 테이블의 모든 행과 다른 행과 비교합니다. 이 비교 알고리즘은 보다 정확한 결과를 만들어 낼 수 있지만 입력의 행 수가 적지 않다면 변환 수행 속도를 더 느리게 만들 수 있는 가능성이 높습니다. 성능 문제를 방지하기 위해 패키지 개발 중에만 Exhaustive 속성을 true로 설정해 주는 것이 좋습니다.
임시 테이블 및 인덱스
유사 항목 그룹화 변환에서는 런타임에 변환에서 연결하는 SQL Server 데이터베이스에 크기가 클 수 있는 테이블, 인덱스 등의 임시 개체를 만듭니다. 테이블 및 인덱스의 크기는 변환 입력의 행 수와 유사 항목 그룹화 변환에서 만든 토큰 수에 비례하는 것입니다.
변환은 임시 테이블더 쿼리해 줍니다. 따라서 특히 프로덕션 서버에 사용 가능한 디스크 공간이 제한되는 경우 SQL Server의 비프로덕션 인스턴스로 유사 항목 그룹화 변환을 연결해야 합니다.
이 변환에서 사용하는 테이블과 인덱스가 로컬 컴퓨터에 있는 경우에 이 변환의 성능이 향상될 수 있습니다.
유사 항목 그룹화 변환의 구성
SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.
고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요:
관련 작업
이 변환의 속성 설정 방법을 보려면 다음 항목 중 하나를 클릭해 주세요:
유사 항목 그룹화 변환 편집기 (열 관리자 탭)
유사 항목 그룹화 변환 편집기 대화 상자의 연결 관리자 탭을 사용하여 기존 연결을 선택하거나 새 연결을 만듭니다.
참고 항목
연결에 지정된 서버에서는 SQL Server를 실행해야 합니다. 유사 항목 그룹화 변환은 변환에 대한 전체 입력만큼 클 수 있는 임시 데이터 개체를 tempdb에 만들어 줍니다. 실행되는 동안 변환에서는 이러한 임시 개체에 대한 서버 쿼리를 실행합니다. 이는 전체 서버 성능에 영향을 끼칠 수 있습니다.
옵션
OLE DB 연결 관리자
목록 상자를 사용하여 기존 OLE DB 연결 관리자를 선택하거나 새로 만들기 단추를 사용하여 새 연결을 만듭니다.
New
OLE DB 연결 관리자 구성 대화 상자를 사용하여 새 연결을 만듭니다.
유사 항목 그룹화 변환 편집기(열 탭)
유사 항목 그룹화 변환 편집기 대화 상자의 열 탭을 사용하여 중복 값을 가진 행을 그룹화하는 데 사용할 열을 지정할 수 있습니다.
옵션
사용 가능한 입력 열
중복 값이 있는 행을 그룹화하기 위해 사용되는 입력 열을 이 목록에서 선택해 주세요.
이름
사용 가능한 입력 열의 이름을 살펴 보세요.
통과
변환 출력에 입력 열을 포함할지에 대한 여부를 선택합니다. 그룹화에 사용되고 있는 모든 열은 출력에 자동적으로 복사됩니다. 이 열을 확인함으로써 추가 열을 포함할 수 있습니다.
입력 열
사용 가능한 입력 열 목록에서 이전에 선택한 입력 열 중 하나를 선택해 주세요.
출력 별칭
해당 출력 열을 설명하는 이름을 입력합니다. 기본적으로 출력 열 이름은 입력 열 이름과 동일합니다.
그룹 출력 별칭
그룹화된 중복 항목에 대한 정식 값을 포함하게 될 열의 설명이 포함된 이름을 입력합니다. 이 출력 열의 기본 이름은 입력 열 이름에 _clean이 추가된 것입니다.
일치 형식
유사 항목 일치 또는 정확히 일치를 선택합니다. 유사 항목 일치 형식을 사용하고 있는 모든 열에서 행이 충분하게 비슷한 경우 행은 중복된 것으로 간주됩니다. 특정 열에서 완전하게 일치를 지정한 경우에 완전하게 일치하는 열에 동일한 값을 포함하는 행만 중복될 가능성이 있는 것으로 간주됩니다. 따라서 특정 열에 확실하게 오류 없음이나 불일치가 포함되어 있으면 해당 열에 대해 정확히 일치를 지정하여 다른 열에 대한 유사 항목 일치의 정확도를 높일 수 있습니다.
최소 유사성
슬라이더를 사용하여 조인 수준에서 유사성 임계값을 설정합니다. 값이 1에 가까울수록 조회 값과 소스값의 유사성이 더 가까워져야 일치 항목으로 인정받게 되는 것입니다. 임계값을 높이게 되면 고려해야 할 필요가 있는 후보 기록의 수가 줄어들게 되므로 일치 속도는 향상될 수 있는 것입니다.
유사성 출력 별칭
선택한 조인에 대한 유사성 점수를 포함하고 있는 새로운 출력 열의 이름을 지정해 주세요. 이 값을 비워 놓으면 출력 열이 생성되지 않습니다.
Numerals
열 데이터 비교 시 선행 및 후행 숫자의 의미를 지정합니다. 예를 들면, 선행 숫자가 중요한 경우에 "123 Main Street"는 "456 Main Street."로 그룹화되지 않습니다
값 | 설명 |
---|---|
Neither | 선행 및 후행 숫자는 중요하지 않습니다. |
Leading | 선행 숫자만 중요합니다. |
Trailing | 후행 숫자만 중요합니다. |
LeadingAndTrailing | 선행 및 후행 숫자 모두 중요합니다. |
비교 플래그
문자열 비교 옵션에 대한 자세한 내용은 문자열 데이터 비교를 참조하세요.
유사 항목 그룹화 변환 편집기(고급 탭)
유사 항목 그룹화 변환 편집기 대화 상자의 고급 탭을 사용하여 입/출력 열을 지정하고, 유사성 임계값을 설정하고, 구분 기호를 정의할 수 있습니다.
참고 항목
유사 항목 그룹화 변환의 Exhaustive 및 MaxMemoryUsage 속성은 유사 항목 그룹화 변환 편집기에서 사용할 수 없지만 고급 편집기를 사용하여 설정할 수 있습니다. 이러한 속성에 대한 자세한 내용은 Transformation Custom Properties의 유사 항목 그룹화 변환 섹션을 참조하십시오.
옵션
입력 키 열 이름
각 입력 행의 고유 식별자를 포함하고 있는 출력 열의 이름을 지정해 주세요. _key_in 열, 각 행을 고유하게 식별해 주는 값이 있습니다.
출력 키 열 이름
중복 행 그룹의 정식 행의 고유 식별자를 포함하고 있는 출력 열의 이름을 지정해 주세요. _key_out 열은 정식 데이터 행의 _key_in 값에 해당합니다.
유사성 점수 열 이름
유사성 점수가 포함되어 있는 열의 이름을 지정해 주세요. 유사성 점수는 입력 행과 정식 행의 유사성을 나타내는 0과 1 사이의 값입니다. 점수가 1에 가까울수록 행이 정식 행과 더 가깝게 일치한 것입니다.
유사성 임계값
슬라이더를 사용하여 유사성 임계값을 설정합니다. 임계값이 1에 가까울수록 중복 항목으로 간주하기 위해서 행은 서로 더 비슷해야 합니다. 임계값을 높이면 고려해야 하는 후보 기록이 적으므로 일치 속도가 향상될 수 있습니다.
토큰 구분 기호
변환에서 데이터 토큰화에 사용할 수 있는 기본 구분 기호 집합을 제공하지만 필요에 따라 목록을 편집하여 구분 기호를 추가 또는 제거할 수 있습니다.