Udostępnij za pośrednictwem


Najlepsze rozwiązania w zakresie ujednolicania danych

Podczas konfigurowania reguł ujednolicania danych w profilu klienta należy wziąć pod uwagę następujące najlepsze rozwiązania:

  • Zrównoważ czas potrzebny na ujednolicenie i pełne dopasowanie. Próba przechwycenia każdego możliwego dopasowania prowadzi do tego, że wiele zasad i unifikacja zajmuje dużo czasu.

  • Dodawaj reguły stopniowo i śledź wyniki. Usuń reguły, które nie poprawiają wyniku dopasowania.

  • Zdeduplikuj każdą tabelę, tak aby każdy klient był reprezentowany w jednym wierszu.

  • Normalizacja umożliwia standaryzację różnic w sposobie wprowadzania danych, takich jak ulica vs. ul vs. St. vs. street.

  • Użyj dopasowania rozmytego strategicznie, aby poprawić literówki i błędy takie jak bob@contoso.com i bob@contoso.cm. Dopasowania rozmyte trwają dłużej niż dopasowania dokładne. Zawsze sprawdzaj, czy dodatkowy czas spędzony na dopasowywaniu rozmytym jest wart dodatkowego współczynnika dopasowania.

  • Zawęź zakres dopasowań za pomocą dokładnego dopasowania. Upewnij się, że każda reguła z warunkami rozmytymi ma co najmniej jeden warunek dokładnego dopasowania.

  • Nie dopasowuj kolumn, które zawierają często powtarzane dane. Upewnij się, że kolumny z dopasowaniem rozmytym nie mają często powtarzanych wartości, takich jak domyślna wartość formularza "Imię".

Wydajność unifikacji

Uruchomienie każdej reguły wymaga czasu. Wzorce, takie jak porównywanie każdej tabeli z każdą inną tabelą lub próba przechwycenia każdego możliwego dopasowania rekordu, mogą prowadzić do długiego czasu przetwarzania ujednolicania. Zwraca również niewiele, jeśli w ogóle, dopasowań w ramach planu, który porównuje każdą tabelę z tabelą podstawową.

Najlepszym rozwiązaniem jest rozpoczęcie od podstawowego zestawu reguł, o których wiesz, że są potrzebne, takich jak porównanie każdej tabeli z tabelą podstawową. Tabela podstawowa powinna być tabelą z najbardziej kompletnymi i dokładnymi danymi. Ta tabela powinna być uporządkowana u góry w kroku ujednolicania reguł dopasowywania.

Stopniowo dodawaj kilka reguł i zobacz, jak długo trwa wprowadzanie zmian i czy Twoje wyniki ulegną poprawie. Przejdź do Ustawienia>System>Stan i wybierz Dopasuj, aby zobaczyć, jak długo trwała deduplikacja i dopasowywanie dla każdego przebiegu ujednolicania.

Zrzut ekranu strony stanu pokazujący czas trwania dopasowania.

Wyświetl statystyki reguł na stronach Reguły deduplikacji i Reguły dopasowywania, aby sprawdzić, czy liczba unikatowych rekordów uległa zmianie. Jeśli nowa reguła pasuje do niektórych rekordów, a liczba unikatowych rekordów nie zmienia się, poprzednia reguła identyfikuje te dopasowania.

Zrzut ekranu przedstawiający stronę Reguły dopasowywania z wyróżnieniem rekordów unikatowych.

Dane klienta

W kroku Dane klientów:

  • Wyklucz kolumny, które nie są potrzebne do dopasowywania reguł lub których nie chcesz uwzględniać w profilu klienta końcowego.

  • Przejrzyj opisy kolumn wybrane przez inteligentne mapowanie.

  • Nie wszystkie kolumny muszą być mapowane. Mapowanie typowych kolumn, takich jak pola adresu e-mail i adresu, umożliwia aplikacji Customer Insights uproszczenie procesów podrzędnych, ale kolumny z unikatowym identyfikatorem lub przeznaczeniem dla Twojej firmy mogą pozostać niezamapowane.

Deduplikacja

Użyj reguł deduplikacji, aby usunąć zduplikowane rekordy klientów w tabeli, tak aby pojedynczy wiersz w każdej tabeli reprezentował każdego klienta. Dobrym regułą jest zidentyfikowanie unikatowego klienta.

W tym prostym przykładzie rekordy 1, 2 i 3 mają ten sam adres e-mail lub numer telefonu i reprezentują tę samą osobę.

ID Nazwa/nazwisko Phone Email
1 Osoba 1 (425) 555-1111 AAA@A.com
2 Osoba 1 (425) 555-1111 BBB@B.com
3 Osoba 1 (425) 555-2222 BBB@B.com
100 Osoba 2 (206) 555-9999 Person2@contoso.com

Nie chcemy, aby takie same imię i nazwisko odpowiadało różnym osobom.

  • Utwórz regułę 1 przy użyciu nazwy i telefonu, która pasuje do rekordów 1 i 2.

  • Utwórz regułę 2 przy użyciu nazwy i e-maila, która pasuje do rekordów 2 i 3.

Połączenie reguły 1 i reguły 2 powoduje utworzenie jednej grupy dopasowania, ponieważ rekord 2 jest im udostępniania.

To Ty decydujesz o liczbie reguł i warunków, które jednoznacznie identyfikują Twoich klientów. Dokładne zasady zależą od danych dostępnych do dopasowania, jakości danych i tego, jak wyczerpujący ma być proces deduplikacji.

Normalizacja

Użyj normalizacji, aby ustandaryzować dane w celu lepszego dopasowania. Normalizacja działa dobrze w przypadku dużych zestawów danych.

Znormalizowane dane są wykorzystywane wyłącznie do celów porównawczych, aby skuteczniej dopasować zapisy klientów. Nie spowoduje to zmiany danych w końcowym ujednoliconym profilu klienta.

Dokładne dopasowanie

Użyj precyzji, aby określić, jak blisko siebie powinny znajdować się dwa ciągi, aby można je było uznać za zgodne. Domyślne ustawienie dokładności wymaga dokładnego dopasowania. Każda inna wartość umożliwia dopasowanie rozmyte dla tego warunku.

Precyzję można ustawić na niską (30% dopasowania), średnią (60% dopasowania) i wysoką (80% dopasowania). Możesz też dostosować i ustawić dokładność w krokach co 1%.

Warunki dokładnego dopasowania

Dokładne warunki dopasowania są uruchamiane jako pierwsze, aby uzyskać mniejszy zestaw wartości dla dopasowań rozmytych. Aby warunki dokładnego dopasowania były skuteczne, powinny charakteryzować się rozsądnym stopniem niepowtarzalności. Jeśli na przykład wszyscy klienci mieszkają w tym samym kraju/regionie, dokładne dopasowanie kraju/regionu nie pomoże zawęzić zakresu.

Kolumny takie jak imię i nazwisko, adres e-mail, telefon lub adres mają dobrą niepowtarzalność i świetnie nadają się do wykorzystania jako dokładne dopasowanie.

Upewnij się, że kolumna używana dla warunku dokładnego dopasowania nie ma żadnych często powtarzanych wartości, takich jak wartość domyślna "Imię" przechwycona przez formularz. Rozwiązanie Customer Insights może profilować kolumny danych, aby zapewnić wgląd w najczęściej powtarzające się wartości. Profilowanie danych można włączyć w połączeniach Azure Data Lake (przy użyciu formatu Common Data Model lub Delta) i Synapse. Profil danych jest uruchamiany przy następnym odświeżeniu źródła danych. Więcej informacji można znaleźć na stronie Profilowanie danych.

Dopasowanie rozmyte

Użyj dopasowania rozmytego, aby dopasować ciągi, które są zbliżone, ale nie są dokładne z powodu literówek lub innych małych odmian. Używaj dopasowania rozmytego strategicznie, ponieważ jest ono wolniejsze niż dopasowania dokładne. Upewnij się, że każda reguła z warunkami rozmytymi ma co najmniej jeden warunek dokładnego dopasowania.

Dopasowanie rozmyte nie jest przeznaczone do przechwytywania odmian imion, takich jak Suzzie i Suzanne. Warianty te są lepiej wychwytywane za pomocą wzorca normalizacji Typ: Nazwa lub niestandardowego dopasowania aliasów, w którym klienci mogą wprowadzić listę odmian nazw, które chcą uwzględnić jako dopasowania.

Do reguły można dodać warunki, takie jak dopasowanie wartości Imię i Numer telefonu. Warunki w danej regule są warunkami "AND". Każdy warunek musi być spełniony, aby wiersze były zgodne. Osobnymi regułami są warunki "OR". Jeśli reguła 1 nie pasuje do wierszy, wiersze są porównywane z regułą 2.

Notatka

Tylko kolumny typu danych typu ciąg mogą używać dopasowania rozmytego. W przypadku kolumn z innymi typami danych, takimi jak liczba całkowita, podwójna precyzja lub data/godzina, pole dokładności jest tylko do odczytu i ustawione na dokładne dopasowanie.

Rozmyte obliczenia dopasowujące

Dopasowania rozmyte są określane przez obliczenie wyniku odległości edycji między dwoma ciągami. Jeśli wynik spełnia lub przekracza próg precyzji, ciągi są uznawane za zgodne.

Odległość edycji to liczba edycji wymaganych do przekształcenia jednego ciągu w inny poprzez dodanie, usunięcie lub zmianę znaku.

Na przykład ciągi "robert2020@hotmail.com" i "robrt2020@hotmail.cm" mają odległość edycyjną równą dwa, gdy usuniemy znaki e i o. Aby obliczyć wynik odległości edycji, użyj następującego wzoru: (Podstawowa długość ciągu – Edytuj odległość) / Podstawowa długość ciągu.

Ciąg podstawowy Ciąg do porównania Ocena
robert2020@hotmail.com robrt2020@hotmail.cm (20 - 2)/20 = 0,9