Regelverk vid dataförening
När du konfigurerar regler för att samordna dina data till en kundprofil bör du tänka på följande:
Balansera tiden för samordning kontra fullständig matchning. Att försöka registrera alla möjliga matchningar leder till många regler och att samordningen tar lång tid.
Lägg till regler progressivt och spåra resultaten. Ta bort regler som inte förbättrar matchresultatet.
Deduplicera varje tabell så att varje kund representeras på en enda rad.
Använd normalisering för att standardisera variationer i hur data matades in.
Använd fuzzy-matchning strategiskt för att korrigera stavfel och fel som bob@contoso.com och bob@contoso.cm. Fuzzy-matchningar tar längre tid att köra än exakta matchningar. Testa alltid för att se om den extra tid som läggs på fuzzy-matchning är värd den extra matchningsgraden.
Begränsa omfattningen av matchningar med exakt matchning. Kontrollera att varje regel med fuzzy-villkor har minst ett exakt matchningsvillkor.
Matcha inte kolumner som innehåller kraftigt upprepade data. Kontrollera att fuzzy-matchade kolumner inte har värden som upprepas ofta, till exempel ett formulärs standardvärde Förnamn.
Prestanda för samordning
Varje regel tar tid att köra. Mönster som att jämföra varje tabell med alla andra tabeller eller försöka samla in alla möjliga postmatchningar kan leda till långa bearbetningstider för samordningen. Den returnerar också få, om ens några, matchningar jämfört med en plan som jämför varje tabell med en bastabell.
Det bästa sättet är att börja med en grundläggande uppsättning regler som du vet behövs, till exempel att jämföra varje tabell med din primära tabell. Din primära tabell ska vara tabellen med mest kompletta och exakta data. Den här tabellen ska sorteras överst i samordningssteget Matchningsregler.
Lägg till flera regler progressivt och se hur lång tid det tar att köra ändringarna och om resultatet förbättras. Gå till Inställningar>System>Status och välj Matcha för att se hur lång tid deduplicering och matchning tog för varje samordningskörning.
Visa regelstatistiken på sidorna Dedupliceringsregler och Matchningsregler för att se om antalet unika poster ändras. Om en ny regel matchar vissa poster och det unika postantalet inte ändras, identifierar en tidigare regel dessa matchningar.
Deduplicering
Använd dedupliceringsregler för att ta bort dubbletter av kundposter i en tabell så att en enda rad i varje tabell representerar varje kund. En bra regel identifierar en unik kund.
I det här enkla exemplet har posterna 1, 2 och 3 antingen samma e-postadress eller telefonnummer och representerar samma person.
ID | Name | Telefon | |
---|---|---|---|
1 | Person 1 | (425) 555-1111 | AAA@A.com |
2 | Person 1 | (425) 555-1111 | BBB@B.com |
3 | Person 1 | (425) 555-2222 | BBB@B.com |
4 | Person 2 | (206) 555-9999 | Person2@contoso.com |
Vi vill inte matcha med ett namn som matchar olika personer med samma namn.
Skapa Regel 1 med Namn och Telefon, som matchar posterna 1 och 2.
Skapa Regel 2 med Namn och E-post, som matchar posterna 2 och 3.
Kombinationen av Regel 1 och Regel 2 skapar en enskild matchningsgrupp eftersom de delar post 2.
Du bestämmer hur många regler och villkor som unikt identifierar dina kunder. De exakta reglerna beror på vilka data du har tillgängliga att matcha, kvaliteten på dina data och hur omfattande du vill att dedupliceringsprocessen ska vara.
Normalisering
Använd normalisering för att standardisera data för bättre matchning. Normalisering fungerar bra på stora datamängder.
De normaliserade data används bara för jämförelseändamål för att matcha kundregister mer effektivt. Det ändrar inte data i den slutliga enhetliga kundprofilen.
Exakt matchning
Använd precision för att avgöra hur lika två strängar ska vara varandra för att betraktas som en matchning. Standardinställningen för precision kräver en exakt matchning. Alla andra värden aktiverar fuzzy-matchning för det villkoret.
Precision kan ställas in på låg (30 procent matchning), medium (60 procent matchning) och hög (80 procent matchning). Eller så kan du anpassa och ställa in precisionen i steg om 1 procent.
Exakta matchningsvillkor
De exakta matchningsvillkoren körs först för att få en mindre uppsättning värden för fuzzy-matchningar. För att vara effektiva bör de exakta matchningsvillkoren ha en rimlig grad av unikhet. Om till exempel alla dina kunder bor i samma land/region skulle en exakt matchning av landet/regionen inte bidra till att begränsa omfattningen.
Kolumner som fullständigt namn, e-postadress, telefonnummer eller adressfält har bra unika egenskaper och är bra kolumner att använda som en exakt matchning.
Se till att kolumnen som du använder för ett exakt matchningsvillkor inte innehåller några värden som upprepas ofta, till exempel standardvärdet Förnamn som hämtas av ett formulär. Customer Insights kan profilera datakolumner för att ge insikter om de vanligaste återkommande värdena. Du kan aktivera dataprofilering i Azure Data Lake-anslutningar (med Common Data Model- eller Delta-format) och Synapse. Dataprofilen körs när datakällan uppdateras nästa gång. Mer information finns i Dataprofilering.
Fuzzy-matchning
Använd fuzzy-matchning för att matcha strängar som är lika men som inte är exakt lika på grund av stavfel eller andra små variationer. Använd fuzzy-matchning strategiskt eftersom det går långsammare än exakta matchningar. Kontrollera att minst ett exakt matchningsvillkor i en regel har fuzzy-villkor.
Fuzzy-matchning är inte avsett att samla in namnvarianter som Suzzie och Suzanne. Dessa variationer fångas in bättre med normaliseringsmönstret Typ: Namn eller den anpassade aliasmatchningen där kunder kan ange sin lista över namnvarianter som de vill betrakta som matchningar.
Du kan lägga till villkor i en regel, till exempel matchande FirstName och Telefon. Villkor inom en viss regel är OCH-villkor. Varje villkor måste matcha för att raderna ska matcha. Separata regler är ELLER-villkor. Om Regel 1 inte matchar raderna jämförs raderna med Regel 2.
Obs
Endast kolumner för datatypen sträng kan använda fuzzy-matchning. För kolumner med andra datatyper, till exempel heltal, dubbel eller datetime, är precisionsfältet skrivskyddat och inställt på exakt matchning.
Beräkningar för fuzzy-matchning
Fuzzy-matchningar bestäms genom att redigeringsavståndspoängen beräknas mellan två strängar. Om poängen uppfyller eller överskrider precisionströskeln betraktas strängarna som en matchning.
Redigeringsavståndet är antalet redigeringar som krävs för att omvandla en sträng till en annan genom att lägga till, ta bort eller ändra ett tecken.
Till exempel har strängarna Jacqueline och Jaclyne ett redigeringsavstånd på fem när vi tar bort tecknen q, u, e, i och e och infogar y-tecknet.
Använd den här formeln för att beräkna poängen för redigeringsavstånd: (Bassträngslängd-Redigeringsavstånd)/Bassträngslängd.
Bassträng | Jämförelsesträng | Poäng |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=.6 |
fred@contoso.com | fred@contso.cm | (14-2)/14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |