Partager via


Supprimez les doublons dans chaque table pour l’unification des données

L’étape d’unification Règles de déduplication recherche et supprime les enregistrements en double d’un client d’une table source afin que chaque client soit représenté par une seule ligne dans chaque table. Chaque table est dédupliquée séparément à l’aide de règles permettant d’identifier les enregistrements d’un client donné.

Les règles sont traitées dans l’ordre. Une fois que toutes les règles ont été exécutées sur tous les enregistrements d’une table, les groupes de correspondance partageant une ligne commune sont combinés en un seul groupe de correspondance.

Définir des règles de déduplication

Une bonne règle identifie un client unique. Considérez vos données. Il peut être suffisant d’identifier les clients en fonction d’un champ tel que l’e-mail. Cependant, si vous souhaitez différencier les clients qui partagent un e-mail, vous pouvez choisir d’avoir une règle à deux conditions, correspondant à E-mail + Prénom. Pour obtenir plus d’informations, consultez Pratiques recommandées pour la déduplication.

  1. Sur la page Règles de déduplication, sélectionnez une table et sélectionnez Ajouter une règle pour définir les règles de déduplication.

    Astuce

    Si vous avez enrichi des tables au niveau source de données pour améliorer vos résultats d’unification, sélectionnez les Utiliser les tables enrichies en haut de la page. Pour plus d’informations, voir Enrichissement des sources de données.

    Capture d’écran de la page Règles de déduplication avec la table en surbrillance et l’option Ajouter une règle affichée

  2. Entrez les informations suivantes dans le volet Ajouter une règle :

    • Sélectionner un champ : choisissez la table dont vous souhaitez vérifier les doublons dans la liste des champs disponibles. Choisissez des champs susceptibles d’être uniques pour chaque client. Par exemple, une adresse e-mail ou la combinaison du nom, de la ville et du numéro de téléphone.

      • Normaliser : sélectionnez les options de normalisation pour la colonne. La normalisation n’impacte que l’étape de correspondance et ne modifie pas les données.

        Normalisation Examples
        Valeurs numériques Convertit de nombreux symboles Unicode représentant des nombres en nombres simples.
        Exemples : ❽ et Ⅷ sont tous deux normalisés au nombre 8.
        Remarque : Les symboles doivent être codés au format de point Unicode.
        Symboles Supprime tous les symboles et caractères spéciaux.
        Exemples : !?"#$%&’( )+,.-/:;<=>@^~{}`[ ]
        Texte en minuscules Convertit les caractères en majuscules en minuscules. 
        Exemple : « THIS Is aN EXamplE » est converti en « this is an example »
        Type – Téléphone Convertit les téléphones de différents formats en chiffres et prend en compte les variations dans la présentation des codes de pays et des extensions. Les symboles et les espaces sont ignorés. Les premiers chiffres « 0 » dans les codes de pays sont ignorés, correspondant à +1 et +01. Les extensions signifiées par un préfixe alphabétique sont ignorées (X 123). L’indicatif de pays normalisé est significatif, de sorte qu’un téléphone avec un indicatif de pays ne correspondra pas à un téléphone sans indicatif de pays.
        Exemple : +01 425.555.1212 correspond à 1 (425) 555-1212
        +01 425.555.1212 ne correspondra pas à (425) 555-1212
        Type – Nom Convertit plus de 500 variantes de noms et titres courants. 
        Exemples : « debby » -> « deborah » « prof » et « professeur » -> « Prof. »
        Type – Adresse Convertit les parties communes des adresses
        Exemples : « street » -> « st » et « northwest » -> « nw »
        Type – Organisation Supprime une cinquantaine de « mots parasites » de noms d’entreprise, tels que « co », « corp », « corporation » et « ltd ».
        Unicode en ASCII Convertit les caractères Unicode en caractères ASCII
        Exemple : Les caractères "à", "á", "â", "À", "Á", "Â", "Ã", "Ä", "Ⓐ" et "A" sont tous convertis en "a". .’
        Espace blanc Supprime tous les espaces blancs
        Mise en correspondance d’alias Vous permet de télécharger une liste personnalisée de paires de chaînes qui peuvent ensuite être utilisées pour indiquer les chaînes qui doivent toujours être considérées comme une correspondance exacte. 
        Utilisez le mappage d’alias lorsque vous avez des exemples de données spécifiques qui, selon vous, devraient correspondre et qui ne correspondent pas à l’aide de l’un des autres modèles de normalisation. 
        Exemple : Scott et Scooter, ou MSFT et Microsoft.
        Contournement personnalisé Vous permet de télécharger une liste personnalisée de chaînes qui peuvent ensuite être utilisées pour indiquer les chaînes qui ne doivent jamais être considérées comme une correspondance exacte.
        Le contournement personnalisé est utile lorsque vous avez des données avec des valeurs communes qui doivent être ignorées, telles qu’un numéro de téléphone factice ou une adresse e-mail factice. 
        Exemple : Ne faites jamais correspondre le téléphone 555-1212, ou test@contoso.com
    • Précision : définissez le niveau de précision. La précision est utilisée pour la correspondance exacte et la correspondance approximative, et détermine la proximité entre deux chaînes pour être considérées comme une correspondance.

      • De base : Choisissez parmi : Faible (30 %), Moyen (60 %), Élevé (80 %) et Exact (100 %). Sélectionnez Exact pour faire correspondre uniquement les enregistrements qui correspondent à 100 %.
      • Personnalisé : Définissez un pourcentage auquel les enregistrements doivent correspondre. Le système ne correspond que les enregistrements dépassant ce seuil.
    • Nom : Le nom de la règle.

      Capture d’écran du volet Ajouter une règle pour supprimer les doublons.

  3. Vous pouvez, si vous le souhaitez, sélectionner Ajouter>Ajouter une condition pour ajouter plus de conditions à la règle. Les conditions sont connectées avec un opérateur ET logique et ne sont donc exécutées que si toutes les conditions sont remplies.

  4. Vous pouvez, si vous le souhaitez, sélectionner Ajouter>Ajouter une exception pour ajouter des exceptions à la règle. Les exceptions sont utilisées pour traiter les rares cas de faux positifs et de faux négatifs.

  5. Sélectionnez Terminé pour créer la règle.

  6. Vous pouvez également ajouter d’autres règles.

Sélectionner les préférences de fusion

Lorsque des règles sont exécutées et que des enregistrements en double sont identifiés pour un client, une « ligne gagnante » est sélectionnée en fonction de la stratégie de fusion. La ligne gagnante représente le client dans l’étape d’unification suivante qui met en correspondance les enregistrements entre les tables. Les données des lignes non gagnantes (« alternatives ») sont utilisées à l’étape d’unification des règles de correspondance pour associer les enregistrements d’autres tables à la ligne gagnante. Cette approche améliore les résultats de correspondance en permettant à des informations telles que les numéros de téléphone précédents de faciliter l’identification des enregistrements correspondants. La ligne gagnante peut être configurée pour être la plus remplie, la plus récente ou la moins récente des enregistrements en double trouvés.

  1. Sélectionnez une table, puis Modifier les préférences de fusion. Le volet Préférences de fusion s’affiche.

  2. Choisissez l’une des trois options pour déterminer quel enregistrement conserver si un doublon est détecté :

    • Le plus renseigné : identifie l’enregistrement ayant le plus de colonnes renseignées comme enregistrement gagnant. C’est l’option de fusion par défaut.
    • Les plus récents : identifie l’enregistrement gagnant en fonction du plus récent. Nécessite une date ou un champ numérique pour définir l’ancienneté.
    • Les moins récents : identifie l’enregistrement gagnant en fonction du moins récent. Nécessite une date ou un champ numérique pour définir l’ancienneté.

    En cas d’égalité, l’enregistrement gagnant est celui avec le MAX(PK) ou la plus grande valeur de clé primaire.

  3. Vous pouvez aussi définir des préférences de fusion sur des colonnes individuelles d’une table en sélectionnant Avancé en bas du volet. Par exemple, vous pouvez choisir de conserver l’e-mail le plus récent ET l’adresse la plus complète de différents enregistrements. Développez la table pour voir toutes ses colonnes et définissez l’option à utiliser pour les colonnes individuelles. Si vous choisissez une option basée sur la récence, vous devez également spécifier un champ de date/heure qui définit la récence.

    Volet des préférences de fusion avancées affichant les e-mails récents et l’adresse complète

  4. Sélectionnez Terminé pour appliquer vos préférences de fusion.

Après avoir défini les règles de déduplication et les préférences de fusion, sélectionnez Suivant.