Удаление дубликатов в каждой таблице для унификации данных
Дедупликация находит и удаляет повторяющиеся записи о клиенте из исходной таблицы, чтобы каждый клиент был представлен одной строкой в каждой таблице. Каждая таблица дедуплицируется отдельно с использованием правил для идентификации записей для данного клиента.
Каждое правило дедупликации выполняется для каждой строки. Если первое правило соответствует строкам 1 и 2, а правило 2 соответствует строкам 2 и 3, то учитываются строки 1, 2 и 3. При обнаружении совпадающих строк выбирается строка-победитель, представляющая этого клиента на основе Параметров объединения (Наиболее заполненные, Самые последние или Самые давние). Используйте параметр Дополнительно, чтобы создать строку-победителя, выбрав поля из различных совпадающих строк, таких как самый последний адрес эл. почты, но адрес с наибольшим количеством информации.
Customer Insights - Data автоматически выполняет следующие действия:
- Выполните дедупликацию записей с одним и тем же значением первичного ключа, выбрав первую строку в качестве победителя в наборе данных.
- Дедуплицируйте записи с помощью Правил соответствия, определенных для таблицы, при сопоставлении строк между таблицами.
Определение правил дедупликации
Хорошее правило идентифицирует уникального клиента. Рассмотрите свои данные. Возможно будет достаточно идентифицировать клиентов на основе такого поля, как адрес электронной почты. Однако если вы хотите различать клиентов, у которых есть общий адрес электронной почты, вы можете выбрать правило с двумя условиями, сопоставляющими по адресу электронной почты + имени. Дополнительные сведения см. в разделе Рекомендации по дедупликации.
На странице Правила дедупликации выберите таблицу и нажмите Добавить правило для определения правил дедупликации.
Совет
Если вы обогатили таблицы на уровне источника данных чтобы улучшить результаты объединения, выберите Использовать обогащенные таблицы в верхней части страницы. Дополнительная информация дана в теме Обогащение источников данных.
В области Добавить правило ведите следующие данные:
Выбрать поле: выберите из списка доступных полей таблицу, которую вы хотите проверить на наличие повторяющихся данных. Выберите поля, которые, вероятно, уникальны для каждого клиента. Например, адрес электронной почты или комбинация имени, города и номера телефона.
Нормализация: выберите варианты нормализации для столбца. Нормализация влияет только на шаг сопоставления и не меняет данные.
Нормализация Примеры Цифры Преобразует множество символов в формате Unicode, представляющих числа, в простые числа.
Примеры: ❽ и Ⅷ будут нормированы как число 8.
Примечание. Символы должны быть закодированы в формате точек Unicode.Тикеры Удаляет символы и специальные знаки.
Примеры: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]Текст в нижний регистр Преобразует символы верхнего регистра в нижний регистр.
Пример: «ЭТо ПРимЕР» преобразуется в «это пример»Тип — телефон Преобразует телефоны различных форматов в цифры и учитывает различия в представлении кодов стран и добавочных номеров. Символы и пробелы игнорируются. Начальные цифры «0» в кодах стран игнорируются, совпадая с +1 и +01. Расширения, обозначенные буквенным префиксом, игнорируются (X 123). Нормализованный код страны имеет большое значение, поэтому телефон с кодом страны не будет соответствовать телефону без кода страны.
Пример: +01 425.555.1212 соответствует 1 (425) 555-1212
+01 425.555.1212 не совпадает с (425) 555-1212Тип — имя Преобразует более 500 распространенных вариантов имен и названий.
Примеры: «debby» —> «deborah», «профессор» и «проф» -> «Проф.»Тип — адрес Преобразует общие части адресов
Примеры: «улица» -> «ул.» и «северо-запад» -> "СЗ"Тип — Организация Удаляет около 50 «шумных» слов в названии компании, таких как «co», «corp», «corporation» и «ltd». Unicode в ASCII Преобразует символы Unicode в эквивалентные буквы ASCII
Пример: символы «à», «á», «â», «À», «Á», «Â», «Ã», «Ä», «Ⓐ», «A» преобразуются в «a».Пробел Удаляет все пробельные символы Сопоставление псевдонима Позволяет отправить пользовательский список пар строк, который затем можно использовать для обозначения строк, которые всегда следует считать точным совпадением.
Используйте сопоставление псевдонимов, если у вас есть конкретные примеры данных, которые, по вашему мнению, должны совпадать, но не сопоставляются с использованием одного из других шаблонов нормализации.
Пример: «Scott» и «Scooter» или «MSFT» и «Microsoft».Пользовательский пропуск Позволяет отправить пользовательский список строк, который затем можно использовать для обозначения строк, которые никогда не следует считать совпадением.
Пользовательский обход полезен, когда у вас есть данные с общими значениями, которые следует игнорировать, например фиктивный номер телефона или фиктивный адрес электронной почты.
Пример: никогда не сопоставлять телефон 555-1212 или test@contoso.com
Точность: задает уровень точности. Точность используется для точного соответствия и нечеткого соответствия и определяет, насколько близко должны быть две строки, чтобы считаться совпадением.
- Базовый: выберите Низкий (30%), Средний (60%), Высокий (80%), и Точный (100%). Выберите Точно, чтобы сопоставлять только записи, которые совпадают на 100 процентов.
- Пользовательский: задайте процент, которому должны соответствовать записи. Система сопоставляет только записи, превышающие этот порог.
Имя: имя для правила.
При желании выберите Добавить>Добавить условие, чтобы добавить дополнительные условия к правилу. Условия связаны с помощью логического оператора "И", поэтому выполнение происходит только при соблюдении всех условий.
Также можно выбрать Добавить>Добавить исключение, чтобы добавить исключения в правило. Исключения используются для устранения редких случаев ложноположительных и ложноотрицательных результатов.
Нажмите Готово, чтобы создать правило.
Вы также можете (необязательно) добавить дополнительные правила.
Выбор параметров объединения
При выполнении правил и выявлении повторяющихся записей для клиента выбирается «строка-победитель» на основе политики объединения. Строка-победитель представляет клиента на следующем этапе объединения, на котором сопоставляются записи между таблицами. Данные в строках, не являющихся победителями («альтернативные»), используются на шаге объединения правил сопоставления для сопоставления записей из других таблиц со строкой-победителем. Такой подход улучшает результаты сопоставления, позволяя такой информации, как предыдущие номера телефонов, помочь идентифицировать совпадающие записи. Строку-победитель можно настроить так, чтобы она была наиболее заполненной, самой последней или наименее последней из найденных повторяющихся записей.
Выберите таблицу, а затем нажмите Изменить настройки объединения. Отобразится область Объединить настройки.
Выберите один из трех вариантов, чтобы определить, какую запись сохранить при обнаружении повторяющихся данных:
- Наиболее заполненные: определяет запись с наиболее заполненными столбцами в качестве записи победителя. Это параметр объединения по умолчанию.
- Самые новые: определяет запись победителя на основе "самая новая". Требуется дата или числовое поле для определения давности.
- Наименее недавние: определяет запись победителя на основе "наименее недавние". Требуется дата или числовое поле для определения давности.
В случае ничьей побеждает запись с MAX(PK) или большим значением первичного ключа.
Также можно определить параметры объединения для отдельных столбцов таблицы. Для этого выберите Расширенные в нижней части области. Например, вы можете сохранить самую последнюю электронную почту И наиболее полный адрес из разных записей. Разверните таблицу, чтобы увидеть все ее столбцы, и определите, какой параметр использовать для отдельных столбцов. Если вы выберете вариант, основанный на давности, вам также необходимо указать поле даты/времени, определяющее давность.
Выберите Готово, чтобы применить настройки объединения.
После определения правил дедупликации и настроек объединения нажмите Далее.