데이터 통합을 위해 각 테이블의 중복을 제거합니다.
중복 제거는 원본 테이블에서 고객에 대한 중복 레코드를 찾아 제거하여 각 고객이 각 테이블의 단일 행으로 표시되도록 합니다. 각 테이블은 특정 고객에 대한 레코드를 식별하는 규칙을 사용하여 별도로 중복 제거됩니다.
각 중복 제거 규칙은 모든 행에 대해 실행됩니다. 첫 번째 규칙이 1행과 2행과 일치하고 규칙 2가 2행과 3행과 일치하면 1, 2, 3행이 일치합니다. 일치하는 행이 발견되면 병합 기본 설정(가장 많이 채워짐, 가장 최근 또는 가장 오래된)에 따라 해당 고객을 나타내는 승자 행이 선택됩니다. 고급 옵션을 사용하면 가장 최근 이메일과 같이 가장 많이 채워진 주소와 같이 일치하는 다양한 행에서 필드를 선택하여 승자 행을 만들 수 있습니다.
Customer Insights - Data는 다음 작업을 자동으로 수행합니다.
- 동일한 기본 키 값을 가진 레코드를 중복 제거하고 데이터 집합의 첫 번째 행을 승자로 선택합니다.
- 테이블 간에 행을 일치시킬 때 테이블에 대해 정의된 일치 규칙을 사용하여 레코드를 중복 제거합니다.
중복 제거 규칙 정의
좋은 규칙은 고유한 고객을 식별합니다. 데이터를 고려합니다. 이메일 등의 필드를 기반으로 고객을 식별하는 것만으로도 충분할 수 있습니다. 그러나 이메일을 공유하는 고객을 구별하려는 경우 이메일 + 이름과 일치하는 두 가지 조건이 있는 규칙을 선택할 수 있습니다. 자세한 내용은 중복 제거 모범 사례를 참조하세요.
중복 제거 규칙 페이지에서 테이블을 선택하고 규칙 추가를 선택하여 중복 제거 규칙을 정의합니다.
팁
통합 결과를 개선하는 데 도움이 되도록 데이터 원본 수준에서 테이블을 보강한 경우 페이지 상단에서 보강 테이블 사용을 선택하세요. 자세한 내용은 데이터 원본 보강을 참조하세요.
규칙 추가 창에서 다음 정보를 입력합니다.
필드 선택: 중복 여부를 확인하려는 테이블의 사용 가능한 필드 목록에서 선택합니다. 모든 단일 고객에게 고유한 필드를 선택하십시오. 예를 들어 이메일 주소 또는 이름, 도시 및 전화번호의 조합입니다.
정규화: 열에 대한 정규화 옵션을 선택합니다. 정규화는 일치 단계에만 영향을 미치며 데이터는 변경하지 않습니다.
정규화 예 숫자 숫자를 나타내는 많은 유니코드 기호를 단순 숫자로 변환합니다.
예: ❽과 Ⅷ는 모두 숫자 8로 정규화됩니다.
참고: 기호는 유니코드 포인트 형식으로 인코딩해야 합니다.기호 기호 및 특수 문자를 제거합니다.
예: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]텍스트를 소문자로 대문자를 소문자로 변환합니다.
예: 'THIS Is aN EXamplE'은 'this is an example'로 변환됩니다유형 – 전화 다양한 형식의 전화번호를 숫자로 변환하고, 국가 코드와 내선 번호가 표시되는 방식에 따른 차이를 고려합니다. 기호와 공백은 무시됩니다. 국가 코드의 선행 '0' 숫자는 무시되며 +1 및 +01과 일치합니다. 문자 접두사로 표시된 확장은 무시됩니다(X 123). 정규화된 국가 번호는 중요하므로 국가 번호가 있는 전화는 국가 번호가 없는 전화와 일치하지 않습니다.
예: +01 425.555.1212는 1 (425) 555-1212와 일치
+01 425.555.1212는 (425) 555-1212와 일치하지 않음유형 – 이름 500개 이상의 일반 이름 변형 및 제목을 변환합니다.
예: 'debby' -> 'deborah' 'prof' 및 'professor' -> 'Prof.'유형 – 주소 주소의 공통 부분을 변환합니다.
예: "street" -> "st" 및 "northwest" -> "nw"유형 – 조직 'co', 'corp', 'corporation', 'ltd.' 등 약 50개의 회사명 'noise words'를 제거합니다. 유니코드를 ASCII로 유니코드 문자를 해당 ASCII 문자로 변환합니다.
예: 'à', 'á', 'â', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Ⓐ' 및 'A' 문자는 모두 'a'로 변환됩니다.공백 모든 공백을 제거합니다. 별칭 매핑 항상 정확히 일치하는 것으로 간주해야 하는 문자열을 표시하는 데 사용할 수 있는 문자열 쌍의 사용자 지정 목록을 업로드할 수 있습니다.
일치해야 한다고 생각되는 특정 데이터 예시가 있지만 다른 정규화 패턴 중 하나를 사용하여 일치하지 않는 경우 별칭 매핑을 사용합니다.
예: Scott 및 Scooter 또는 MSFT 및 Microsoft.우회 사용자 정의 일치하지 않아야 하는 문자열을 표시하는 데 사용할 수 있는 문자열의 사용자 지정 목록을 업로드할 수 있습니다.
우회 사용자 지정은 더미 전화 번호 또는 더미 이메일과 같이 무시해야 하는 공통 값을 가진 데이터가 있는 경우에 유용합니다.
예: 전화번호 555-1212 또는 test@contoso.com와 일치하지 않습니다.
정밀도: 정밀도 수준을 설정합니다. 정밀도는 완전 일치 및 유사 항목 일치에 사용되며 일치 항목으로 간주되기 위해 두 문자열이 얼마나 가까워야 하는지를 결정합니다.
- 기본: 최저(30%), 보통(60%), 최고(80%), 및 정확(100%)에서 선택합니다. 정확히 일치를 선택하여 100% 일치하는 레코드만 일치시킵니다.
- 사용자 지정: 레코드가 일치해야 하는 비율을 설정합니다. 시스템은이 임계값을 통과하는 일치 레코드만 일치시킵니다.
이름: 규칙의 이름입니다.
선택적으로 추가>조건 추가를 선택하여 규칙에 더 많은 조건을 추가합니다. 조건은 논리 AND 연산자로 연결되므로 모든 조건이 충족되는 경우에만 실행됩니다.
선택적으로, 추가>예외 추가를 규칙에 예외 추가합니다. 예외는 가양성 및 가음성의 드문 경우를 해결하는 데 사용됩니다.
완료를 선택하여 규칙을 생성합니다.
선택적으로 더 많은 규칙을 추가할 수 있습니다.
병합 기본 설정 선택
규칙이 실행되고 고객에 대한 중복 레코드가 식별되면 병합 정책에 따라 "승자 행"이 선택됩니다. 승자 행은 테이블 간의 레코드를 일치시키는 다음 통합 단계의 고객을 나타냅니다. 승자가 아닌("대체") 행의 데이터는 일치 규칙 통합 단계에서 다른 테이블의 레코드를 승자 행과 일치시키는 데 사용됩니다. 이 접근 방식은 이전 전화번호와 같은 정보가 일치하는 레코드를 식별하는 데 도움이 되도록 하여 일치 결과를 향상시킵니다. 승자 행은 발견된 중복 레코드 중 가장 많이 채워진 레코드, 가장 최근 레코드 또는 가장 최근 레코드로 구성할 수 있습니다.
테이블을 선택한 다음 병합 기본 설정 편집을 선택합니다. 병합 기본 설정 창이 나타납니다.
중복이 발견된 경우 보관할 레코드를 결정하려면 세 가지 옵션 중 하나를 선택합니다.
- 가장 많이 채워진: 가장 많이 채워진 열이 있는 레코드를 승자 레코드로 식별합니다. 기본 병합 옵션입니다.
- 가장 최근: 최신순으로 승자 기록을 식별합니다. 최신 성을 정의하려면 날짜 또는 숫자 필드가 필요합니다.
- 가장 최근: 최신순으로 승자 기록을 식별합니다. 최신성을 정의하려면 날짜 또는 숫자 필드가 필요합니다.
동점일 경우 승자 기록은 MAX(PK) 또는 더 큰 기본 키 값을 가진 레코드입니다.
선택적으로 테이블의 개별 열에 대한 병합 기본 설정을 정의하려면 창 하단에서 고급을 선택합니다. 예를 들어 가장 최근의 이메일과 다른 기록에서 가장 완전한 주소를 유지하도록 선택할 수 있습니다. 테이블을 확장하여 모든 열을 보고 개별 열에 사용할 옵션을 정의합니다. 최근성 기반 옵션을 선택하는 경우 최근성을 정의하는 날짜/시간 필드도 지정해야 합니다.
완료를 선택하여 병합 기본 설정을 적용합니다.
중복 제거 규칙 및 병합 기본 설정을 정의한 후 다음을 선택합니다.