Delen via


Duplicaten verwijderen in elke tabel voor gegevensharmonisatie

Met ontdubbeling worden dubbele records voor een klant uit een brontabel gevonden en verwijderd, zodat elke klant door één rij in elke tabel wordt weergegeven. Elke tabel wordt afzonderlijk ontdubbeld met behulp van regels om de records voor een bepaalde klant te identificeren.

Elke ontdubbelingsregel wordt op elke rij uitgevoerd. Als uw eerste regel overeenkomt met rij 1 en 2, en regel 2 overeenkomt met rij 2 en 3, dan worden rij 1, 2 en 3 afgestemd. Wanneer overeenkomende rijen worden gevonden, wordt er een winnende rij geselecteerd om die klant te vertegenwoordigen op basis van de Voorkeuren voor samenvoegen (Meest ingevuld, Meest recent of Minst recent). Gebruik de optie Geavanceerd om een winnaarsrij te maken door velden te selecteren uit de verschillende overeenkomende rijen, zoals het meest recente e-mailadres, maar dan met het meest ingevulde adres.

Customer Insights - Data voert automatisch de volgende acties uit:

  • Records met dezelfde primaire sleutelwaarde ontdubbelen en de eerste rij in de gegevensset als winnaar selecteren.
  • Records ontdubbelen met behulp van de overeenkomende regels die voor de tabel zijn gedefinieerd bij het vergelijken van rijen tussen tabellen.

Ontdubbelingsregels definiëren

Een goede regel identificeert een unieke klant. Bekijk uw gegevens. Het kan voldoende zijn om klanten te identificeren op basis van een veld zoals e-mail. Als u echter onderscheid wilt maken tussen klanten die een e-mailadres delen, kunt u ervoor kiezen om een regel te hebben met twee voorwaarden, overeenkomend met Email + FirstName. Zie voor meer informatie Best practices voor ontdubbeling.

  1. Selecteer op de pagina Ontdubbelingsregels een tabel en selecteer Regel toevoegen om de ontdubbelingsregels te definiëren.

    Tip

    Als u tabellen op gegevensbronniveau hebt verrijkt om uw harmonisatieresultaten te verbeteren, selecteert u Verrijkte tabellen gebruiken boven aan de pagina. Zie Verrijking voor gegevensbronnen voor meer informatie.

    Schermopname van de pagina Ontdubbelingsregels, waarbij de tabel is gemarkeerd en Regel toevoegen wordt weergegeven

  2. Vul in het deelvenster Regel toevoegen de volgende gegevens in:

    • Veld selecteren: maak uw keuze in de lijst met beschikbare velden van de tabel die u op duplicaten wilt controleren. Kies velden die waarschijnlijk uniek zijn voor elke afzonderlijke klant, bijvoorbeeld een e-mailadres of de combinatie van naam, plaats en telefoonnummer.

      • Normaliseren: selecteer normalisatieopties voor de kolom. Normalisatie heeft alleen invloed op de afstemmingsstap en verandert de gegevens niet.

        Normalisatie Voorbeelden
        Cijfers Converteert veel Unicode-symbolen die getallen voorstellen naar eenvoudige getallen.
        Voorbeelden: ❽ en Ⅷ zijn beide genormaliseerd naar het getal 8.
        Opmerking: De symbolen moeten gecodeerd zijn in Unicode Point Format.
        Symbolen Verwijdert symbolen en speciale tekens.
        Voorbeelden: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
        Tekst in kleine letters Converteert hoofdlettertekens naar kleine letters. 
        Voorbeeld: 'DIT Is eeN VOorBEELD' wordt omgezet in 'dit is een voorbeeld'
        Type - Telefoonnummer Converteert telefoonnummers in verschillende indelingen naar cijfers en houdt rekening met variaties in de manier waarop landcodes en toestelnummers worden weergegeven. Symbolen en spaties worden genegeerd. De eerste '0'-cijfers in landcodes worden genegeerd, ze komen overeen met +1 en +01. Uitbreidingen die worden aangegeven met een letterprefix worden genegeerd (X 123). De genormaliseerde landcode is belangrijk, dus een telefoon met een landcode komt niet overeen met een telefoon zonder landcode.
        Voorbeeld: +01 425.555.1212 komt overeen met 1 (425) 555-1212
        +01 425.555.1212 komt niet overeen met (425) 555-1212
        Type - Naam Converteert meer dan 500 veelvoorkomende naamvariaties en titels. 
        Voorbeelden: "debby" -> "deborah" "prof" en "professor" -> "Prof."
        Type - Adres Converteert veelvoorkomende delen van adressen
        Voorbeelden: "straat" -> "st" en "noordwest" -> "nw"
        Type - Organisatie Verwijdert ongeveer 50 'ruiswoorden' uit bedrijfsnamen, zoals 'co', 'corp', 'corporation' en 'ltd'.
        Van Unicode naar ASCII Converteert Unicode-tekens naar hun ASCII-letterequivalent
        Voorbeeld: de tekens 'à', 'á', 'â', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Ⓐ' en 'A' worden allemaal geconverteerde naar 'a'.
        Spatie Verwijdert alle spaties
        Aliastoewijzing Hiermee kunt u een aangepaste lijst met tekenreeksparen uploaden die vervolgens kan worden gebruikt om tekenreeksen aan te geven die altijd als een exacte overeenkomst moeten worden beschouwd. 
        Gebruik aliastoewijzing als u specifieke gegevensvoorbeelden hebt waarvan u denkt dat ze moeten overeenkomen, en die niet overeenkomen met een van de andere normalisatiepatronen. 
        Voorbeeld: Scott en Scooter, of MSFT en Microsoft.
        Aangepaste omleiding Hiermee kunt u een aangepaste lijst met tekenreeksen uploaden die vervolgens kan worden gebruikt om tekenreeksen aan te geven die nooit als een overeenkomst moeten worden beschouwd.
        Een aangepaste bypass is handig als u gegevens hebt met algemene waarden die genegeerd moeten worden, zoals een dummy-telefoonnummer of een dummy-e-mailadres. 
        Voorbeeld: Maak nooit een overeenkomst met telefoonnummer 555-1212 of met test@contoso.com
    • Precisie: stel het precisieniveau in. Precisie wordt gebruikt voor exacte overeenkomsten en fuzzy overeenkomsten en bepaalt hoeveel twee tekenreeksen op elkaar moeten lijken om als een overeenkomst te worden beschouwd.

      • Basis: kies uit Laag (30%), Gemiddeld (60%), Hoog (80%) en Exact (100%). Selecteer Exact om alleen records af te stemmen die voor 100 procent overeenkomen.
      • Aangepast: stel een percentage in waaraan records moeten voldoen. Alleen records die deze drempel halen, worden vergeleken.
    • Naam: naam voor de regel.

      Schermopname van het deelvenster Regel toevoegen voor het verwijderen van duplicaten.

  3. Selecteer desgewenst Toevoegen>Voorwaarde toevoegen om meer voorwaarden aan de regel toe te voegen. Voorwaarden zijn verbonden met een logische EN-operator en worden dus alleen uitgevoerd als aan alle voorwaarden is voldaan.

  4. Kies desgewenst Toevoegen>Uitzondering toevoegen om uitzonderingen aan de regel toe te voegen. Uitzonderingen worden gebruikt om zeldzame gevallen van valse positieven en valse negatieven aan te pakken.

  5. Selecteer Gereed om de regel te maken.

  6. U kunt ook meer regels toevoegen​.

Voorkeuren voor samenvoegen selecteren

Wanneer regels worden uitgevoerd en er dubbele records voor een klant worden geïdentificeerd, wordt er een 'winnaarsrij' geselecteerd op basis van het samenvoegingsbeleid. De winnende rij vertegenwoordigt de klant in de volgende harmonisatiestap, waarin records tussen tabellen overeenkomen. Gegevens in de niet-winnende (alternatieve) rijen worden in de stap Harmonisatie van overeenkomstregels gebruikt om records uit andere tabellen af te stemmen op met de winnende rij. Deze aanpak verbetert de resultaten van overeenkomsten doordat informatie zoals eerdere telefoonnummers kan helpen bij het identificeren van overeenkomende records. De winnaarrij kan worden geconfigureerd als de meest ingevulde, meest recente of minst recente van de gevonden dubbele records.

  1. Selecteer een tabel en vervolgens Voorkeuren voor samenvoegen bewerken. Het deelvenster Voorkeuren voor samenvoegen verschijnt.

  2. Kies een van de drie opties om te bepalen welke record moet worden bewaard als er een duplicaat wordt gevonden:

    • Meest gevuld: identificeert de record met de meeste gevulde kolommen als de winnende record. Dit is de standaard samenvoegingsoptie.
    • Meest recent: identificeert het winnende record op basis van recentheid. Vereist een datum of een numeriek veld om de recentheid te definiëren.
    • Minst recent: identificeert het winnende record op basis van minst recent zijn. Vereist een datum of een numeriek veld om de recentheid te definiëren.

    Bij een gelijke stand is de winnende record degene met de MAX(PK) of de grotere primaire-sleutelwaarde.

  3. Selecteer om samenvoegvoorkeuren te definiëren voor individuele kolommen van een tabel desgewenst Geavanceerd onder aan het deelvenster. U kunt er bijvoorbeeld voor kiezen om de meest recente e-mail EN het meest volledige adres uit verschillende records te bewaren. Vouw de tabel uit om alle kolommen ervan te bekijken en definieer welke optie moet worden gebruikt voor afzonderlijke kolommen. Als u een op recentheid gebaseerde optie kiest, moet u ook een datum-/tijdveld opgeven dat de recentheid definieert.

    Deelvenster met geavanceerde samenvoegvoorkeuren met recente e-mail en volledig adres

  4. Selecteer Gereed om uw samenvoegvoorkeuren toe te passen.

Na het definiëren van de ontdubbelingsregels en samenvoegvoorkeuren, selecteert u Volgende.