Definování pravidel párování pro sjednocení dat
Tento krok sjednocení definuje pořadí párování a pravidla pro párování mezi tabulkami. Tento krok vyžaduje alespoň dvě tabulky. Když jsou záznamy spárovány, jsou zřetězeny do jednoho záznamu se všemi poli z každé tabulky. Při párování se berou v úvahu alternativní řádky (řádky, které nevyhrávají z kroku Deduplikace). Pokud se však řádek shoduje s alternativním řádkem v tabulce, záznam se shoduje s řádkem vítěze.
Poznámka:
Jakmile vytvoříte podmínky shody a vyberete Další, nemůžete odstranit vybranou tabulku nebo sloupec. V případě potřeby vyberte Zpět ke kontrole vybraných tabulek a sloupců, než budete pokračovat.
Následující kroky a obrázky popisují první průchod procesem sjednocení. Chcete-li upravit stávající nastavení sjednocení, viz Aktualizace nastavení sjednocení.
Zahrnutí rozšířených tabulek (Preview)
Pokud jste obohatili tabulky na úrovni zdroje dat, abyste pomohli zlepšit výsledky sjednocení, vyberte je. Další informace najdete v tématu Rozšíření zdrojů dat. Pokud jste vybrali rozšířené tabulky na stránce Pravidla odstranění duplicit, nemusíte je znovu vybírat.
V horní části stránky Pravidla párování vyberte Použít rozšířené tabulky.
V podokně Použití rozšířených tabulek vyberte jednu nebo více rozšířených tabulek.
Vyberte Hotovo.
Určení pořadí párování
Každé párování sjednocuje dvě nebo více tabulek do jedné konsolidované tabulky. Zároveň uchovává jedinečné záznamy o zákaznících. Pořadí shody udává pořadí, ve kterém se systém pokusí záznamy spárovat.
Důležité
První tabulka je označována jako primární a slouží jako základ sjednocených profilů. K této tabulce budou přidány další vybrané tabulky.
Důležité poznámky:
- Jako primární tabulku vyberte tabulku s nejúplnějšími a nejspolehlivějšími profilovými údaji o vašich zákaznících.
- Vyberte tabulku, která má několik sloupců společných s jinými tabulkami (například jméno, telefonní číslo nebo e-mailová adresa), jakožto primární tabulku.
- Tabulky se mohou shodovat pouze s jinými tabulkami, které mají vyšší prioritu. Table2 se tedy může shodovat pouze s Table1 a Table3 se může shodovat s Table2 nebo Table1.
Na stránce Pravidla párování pomocí šipek pro pohyb nahoru a dolů přesuňte tabulky v požadovaném pořadí nebo je přetáhněte. Například vyberte eCommerceContacts jako primární tabulku a loyCustomer jako druhou tabulku.
Pokud chcete mít každý záznam v tabulce jako jedinečného zákazníka bez ohledu na to, zda je nalezena shoda, vyberte Zahrnou všechny záznamy. Všechny záznamy v této tabulce, které se neshodují se záznamy v jiných tabulkách, jsou zahrnuty do jednotného profilu. Záznamy, které nemají shodu, se nazývají singletony.
Primární tabulka eCommerceContacts je spárována s další tabulkou loyCustomer. Datová sada, která je výsledkem prvního kroku párování, je spárována s následující tabulkou, pokud máte více než dvě tabulky. Pokud v eCommerceContacts stále existují duplikáty, když loyCustomer je spárován s eCommerceContacts, duplicitní řádky eCommerceContacts nejsou zredukovány na jediný záznam zákazníka. Pokud však duplicitní řádky v loyCustomer odpovídají řádku v eCommerceContacts, zredukují se na jeden záznam zákazníka.
Definování pravidel pro párování
Pravidla párováníí určují logiku, podle které bude přiřazen určitý pár tabulek. Pravidlo se skládá z jedné nebo více podmínek.
Upozornění vedle názvu tabulky znamená, že pro dvojici shody není definováno žádné pravidlo shody.
Vyberte Přidat pravidlo pro dvojici tabulek k definování pravidel shody.
V podokně Přidat pravidlo nakonfigurujte podmínky pro pravidlo.
Vyberte tabulku/pole (první řádek): Vyberte tabulku a sloupec, které jsou pravděpodobně jedinečné pro zákazníka. Například telefonní číslo nebo e-mailová adresa. Vyvarujte se párování podle sloupců typu aktivity. Například ID nákupu pravděpodobně nenajde shodu v jiných typech záznamů.
Vyberte tabulku/pole (druhý řádek): Vyberte sloupec, který souvisí se sloupcem tabulky zadané v prvním řádku.
Normalizovat: Vyberte možnosti normalizace pro sloupec.
- Čísla Převede mnoho symbolů Unicode, které představují čísla, na jednoduchá čísla.
- Symboly: Odstraní všechny symboly a speciální znaky, jako např. !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Například z Head&Shoulder se stane HeadShoulder.
- Text na malá písmena: Převede všechna velká písmena na malá písmena. Z „VŠECHNA PÍSMENA VELKÁ“ a Velká Počáteční“ se stane „všechna písmena velká a velká počáteční“.
- Typ (telefon, jméno, adresa, organizace): Standardizuje jména, tituly, telefonní čísla a adresy.
- Unicode na ASCII: Převede znaky Unicode na jejich ekvivalentní písmeno v ASCII. Například ề s diakritikou se převede na znak e.
- Mezera: Odebere všechny mezery. Z Ahoj světe se stane Ahojsvěte.
- Mapování aliasů: Umožňuje nahrát vlastní seznam párů řetězců pro označení řetězců, které by měly být vždy považovány za přesnou shodu.
- Vlastní vynechání: Umožňuje nahrát vlastní seznam řetězců, který označuje řetězce, které by se nikdy neměly párovat.
Přesnost: Nastaví úroveň přesnosti pro tuto podmínku. Přesnost se používá pro přesnou shodu a přibližnou shodu a určuje, jak blízko musí být dva řetězce, aby se považovaly za shodu.
- Základní: Vyberte jednu z možností Nízká (30 %), Střední (60 %), Vysoká (80 %) a Přesná (100 %). Vyberte Přesný, aby se shodovaly pouze záznamy, které se stoprocentně shodují.
- Vlastní: Nastaví procento, kterému musí záznamy odpovídat. Systém bude párovat pouze záznamy splňující tuto prahovou hodnotu.
Název: Název pravidla.
Chcete-li přiřadit tabulky pouze v případě, že sloupce splňují více podmínek, vyberte Přidat>Přidat podmínku pro přidání dalších podmínek do pravidla shody. Podmínky jsou spojeny s logickým operátorem AND a jsou tedy prováděny pouze tehdy, jsou-li všechny splněny.
Případně zvažte pokročilé možnosti jako např. výjimky nebo vlastní podmínky shody.
Vyberte Hotovo pro dokončení pravidla.
Volitelně přidejte další pravidla.
Vyberte Další.
Přidání pravidel pro spárování dvojice
Pravidla párování jsou sady podmínek. Pro párování tabulek podle podmínek založených na několika sloupcích přidejte další pravidla.
Vyberte Přidat pravidlo v tabulce, do které chcete přidat pravidla.
Postupujte podle pokynů v části Definování pravidel pro párování.
Poznámka:
Na pořadí pravidel záleží. Porovnávací algoritmus se pokusí porovnat daný záznam zákazníka na základě vašeho prvního pravidla a pokračuje k druhému pravidlu, pouze pokud nebyly identifikovány žádné shody s prvním pravidlem.
Rozšířené možnosti
Přidání výjimek do pravidla
Ve většině případů párování tabulek vede k jedinečným zákaznickým profilům s konsolidovanými daty. Chcete-li řešit vzácné případy falešně pozitivních a falešně negativních výsledků, definujte výjimky pro pravidlo shody. Výjimky se uplatňují po zpracování pravidel shody a zabraňují spárování všech záznamů, které splňují kritéria výjimky.
Pokud například vaše pravidlo shody kombinuje příjmení, město a datum narození, systém by identifikoval dvojčata se stejným příjmením, která žijí ve stejném městě, jako stejný profil. Můžete zadat výjimku, která nespáruje profily, pokud křestní jména v tabulkách, které kombinujete, nejsou stejná.
V podokně Upravit pravidlo vyberte Přidat>Přidat výjimku.
Zadejte kritéria výjimky.
Pravidlo uložte kliknutím na tlačítko Hotovo.
Zadání vlastních podmínek párování
Zadejte podmínky, které přepíší výchozí logiku shody. K dispozici jsou čtyři možnosti:
Možnost | Popis | Příklad |
---|---|---|
Vždy se shodovat | Definuje hodnoty primárních klíčů, které se vždy shodují. | Vždy porovná řádek s primárním klíčem 12345 s řádkem s primárním klíčem 54321. |
Nikdy se neshodovat | Definuje hodnoty primárních klíčů, které se nikdy neshodují. | Nikdy neporovná řádek s primárním klíčem 12345 s řádkem s primárním klíčem 54321. |
Obejít | Definuje hodnoty, které by měl systém ve fázi shody vždy ignorovat. | Ignorujte hodnoty 11111 a Neznámá během shody. |
Mapování aliasů | Definuje hodnoty, které by měl systém považovat za stejnou hodnotu. | Považuje Joe za shodné s Joseph. |
Vyberte Vlastní.
Vyberte Vlastní typ a vyberte Stáhnout šablonu. Přejmenujte šablonu bez použití mezer. Pro každou možnost shody použijte samostatnou šablonu.
Otevřete stažený soubor šablony a vyplňte podrobnosti. Šablona obsahuje pole pro určení tabulky a hodnoty primárního klíče tabulky, které mají být použity ve vlastní shodě. U názvů tabulky se rozlišují velká a malá písmena. Například pokud chcete, aby se primární klíč 12345 z tabulky Prodej vždy shodoval s primárním klíčem 34567 z tabulky Kontakt, vyplňte šablonu:
- Tabulka1: Prodej
- KlíčTabulky1: 12345
- Tabulka2: Kontakt
- KlíčTabulky2: 34567
Stejný soubor šablony může určit vlastní záznamy shody z více tabulek.
Pokud chcete zadat vlastní párování pro odstranění duplicit v tabulce, zadejte stejnou tabulku jako Tabulka1 a Tabulka2 a nastavte různé hodnoty primárního klíče. Chcete-li použít vlastní párování, musíte pro tabulku definovat alespoň jedno pravidlo odstranění duplicit.
Po přidání všech přepsání uložte soubor šablony.
Přejděte na Data>Zdroje dat a ingestujte soubory šablon jako nové tabulky.
Po nahrání souborů vyberte znovu možnost Vlastní. Vyberte požadované tabulky z rozbalovacího seznamu a vyberte Hotovo.
Použití vlastní shody závisí na možnosti shody, kterou chcete použít.
- Pro Vždy se shodovat nebo Nikdy se neshodovat pokračujte dalším krokem.
- Pro Obejití nebo Mapování aliasů vyberte Upravit v existujícím pravidlu shody nebo vytvořte nové pravidlo. V rozevíracím seznamu Normalizace vyberte možnost Vlastní obejití nebo Mapování aliasů a vyberte Hotovo.
Vyberte Hotovo na stránce Vlastní pro použití vlastní konfigurace shody.
Každý zpracovaný soubor šablony je vlastní zdroj dat. Pokud jsou objeveny záznamy, které vyžadují speciální ošetření ohledně shody, aktualizujte příslušný zdroj dat. Aktualizace bude použita během dalšího procesu sjednocení. Například identifikujete dvojčata s téměř stejným jménem žijící na stejné adrese, která byla sloučena jako jedna osoba. Aktualizací zdroje dat identifikujete dvojčata jako samostatné, jedinečné záznamy.