Sdílet prostřednictvím


Odstranění duplikátů v každé tabulce pro sjednocení dat

Krok sjednocení pravidel odstranění duplicit najde a odstraní duplicitní záznamy pro zákazníka ze zdrojové tabulky, takže každý zákazník je reprezentován jedním řádkem v každé tabulce. Každá tabulka je deduplikována samostatně pomocí pravidel pro identifikaci záznamů pro daného zákazníka.

Pravidla jsou zpracována v pořadí. Poté, co byla všechna pravidla spuštěna na všech záznamech v tabulce, jsou skupiny shody, které sdílejí společný řádek, spojeny do jedné skupiny.

Definování odstranění duplicit

Dobré pravidlo identifikuje jedinečného zákazníka. Zvažte svá data. Může postačit identifikovat zákazníky na základě pole, jako je e-mail. Pokud však chcete odlišit zákazníky, kteří sdílejí e-mail, můžete zvolit pravidlo se dvěma podmínkami, které se shodují s e-mailem a křestním jménem. Další informace naleznete v tématu Osvědčené postupy deduplikace.

  1. Na stránce Pravidla odstranění duplicit vyberte tabulku a vyberte Přidat pravidlo k definování pravidel odstranění duplicit.

    Tip

    Pokud jste rozšířili tabulky na úrovni zdroje dat, abyste pomohli zlepšit výsledky sjednocení, Použít rozšířené tabulky v horní části stránky. Další informace najdete v tématu Rozšíření zdrojů dat.

    Screenshot stránky pravidel odstranění duplicit se zvýrazněnou tabulkou a zobrazeným tlačítkem Přidat pravidlo

    1. V podokně Přidat pravidlo zadejte následující informace:

      • Vyberte pole: Vyberte ze seznamu dostupných polí tabulky, u které chcete zkontrolovat duplikáty. Vyberte pole, která jsou potenciálně jedinečná pro každého jednotlivého zákazníka. Například e-mailová adresa nebo kombinace jména, města a telefonního čísla.

      • Normalizovat: Vyberte možnosti normalizace pro sloupec. Normalizace ovlivní pouze krok shody a nemění data.

        • Čísla Převede mnoho symbolů Unicode, které představují čísla, na jednoduchá čísla.
        • Symboly: Odstraní všechny symboly a speciální znaky, jako např. !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Například z Head&Shoulder se stane HeadShoulder.
        • Text na malá písmena: Převede všechna velká písmena na malá písmena. Z „VŠECHNA PÍSMENA VELKÁ“ a Velká Počáteční“ se stane „všechna písmena velká a velká počáteční“.
        • Typ (telefon, jméno, adresa, organizace): Standardizuje jména, tituly, telefonní čísla a adresy.
        • Unicode na ASCII: Převede znaky Unicode na jejich ekvivalentní písmeno v ASCII. Například ề s diakritikou se převede na znak e.
        • Mezera: Odebere všechny mezery. Z Ahoj světe se stane Ahojsvěte.
        • Mapování aliasů: Umožňuje nahrát vlastní seznam párů řetězců pro označení řetězců, které by měly být vždy považovány za přesnou shodu.
        • Vlastní vynechání: Umožňuje nahrát vlastní seznam řetězců, který označuje řetězce, které by se nikdy neměly párovat.
      • Přesnost: Nastavte úroveň přesnosti. Přesnost se používá pro přesnou shodu a přibližnou shodu a určuje, jak blízko musí být dva řetězce, aby se považovaly za shodu.

        • Základní: Vyberte jednu z možností Nízká (30 %), Střední (60 %), Vysoká (80 %) a Přesná (100 %). Vyberte Přesný, aby se shodovaly pouze záznamy, které se stoprocentně shodují.
        • Vlastní: Nastaví procento, kterému musí záznamy odpovídat. Systém páruje pouze záznamy splňující tuto prahovou hodnotu.
      • Název: Název pravidla.

      Screenshot Přidat pravidlo pro odstranění duplikátů.

    2. Volitelně vyberte Přidat>Přidat podmínku pro přidání dalších podmínek do pravidla. Podmínky jsou spojeny s logickým operátorem AND a jsou tedy prováděny pouze tehdy, jsou-li všechny splněny.

    3. Volitelně Přidat>Přidat výjimku na přidat výjimky do pravidla. Výjimky se používají k řešení vzácných případů falešně pozitivních a falešně negativních výsledků.

    4. Vyberte Hotovo pro vytvoření pravidla.

  2. Volitelně přidejte další pravidla.

  3. Vyberte tabulku a poté Upravit předvolby sloučení.

  4. V podokně Sloučit předvolby:

    1. Vyberte jednu ze tří možností, jak určit, který záznam se má ponechat, pokud je nalezen duplikát:

      • Nejvíce vyplněný: Identifikuje záznam s nejvíce vyplněnými sloupci jako vítězný. Toto je výchozí možnost sloučení.
      • Nejnovější: Identifikuje vítězný záznam na základě největší aktuálnosti. Vyžaduje datum nebo číselné pole pro definování aktuálnosti.
      • Nejdřívější: Identifikuje vítězný záznam na základě nejmenší aktuálnosti. Vyžaduje datum nebo číselné pole pro definování aktuálnosti.

      V případě nerozhodného výsledku je vítězem záznam s hodnotou MAX(PK) nebo vyšší hodnotou primárního klíče.

    2. Volitelně, chcete-li definovat předvolby sloučení pro jednotlivé sloupce tabulky, vyberte Rozšířené ve spodní části podokna. Můžete se například rozhodnout zachovat nejnovější e-mail A nejúplnější adresu z různých záznamů. Rozbalte tabulku, abyste viděli všechny její sloupce a definujte, kterou možnost mají použít jednotlivé sloupce. Pokud zvolíte možnost založenou na aktuálnosti, musíte také zadat pole data/času, které definuje aktuálnost.

      Panel rozšířených předvoleb sloučení zobrazující poslední e-mail a úplnou adresu

    3. Výběrem možnosti Hotovo použijte předvolby sloučení.

  5. Po definování pravidel deduplikace a předvoleb sloučení vyberte Další.