Meilleures pratiques en matière d’unification des données
Lorsque vous configurez des règles pour unifier vos données dans un profil client, tenez compte de ces bonnes pratiques :
Trouvez l’équilibre entre le temps d’unification et l’appariement complet. Essayer de capturer toutes les correspondances possibles conduit à de nombreuses règles et à l’unification qui prend beaucoup de temps.
Ajoutez des règles au fur et à mesure et suivez les résultats. Supprimez les règles qui n’améliorent pas le résultat de la correspondance.
Dédupliquez chaque table afin que chaque client soit représenté sur une seule ligne.
Utilisez la normalisation pour normaliser les variations dans la façon dont les données ont été saisies, telles que Rue vs. St vs. St. vs. st.
Utilisez la correspondance approximative de manière stratégique pour corriger les fautes de frappe et les erreurs telles que bob@contoso.com et bob@contoso.cm. Les correspondances partielles prennent plus de temps à s’exécuter que les correspondances exactes. Testez toujours pour voir si le temps supplémentaire consacré à la correspondance approximative vaut le taux de correspondance supplémentaire.
Réduisez la portée des correspondances avec la correspondance exacte. Assurez-vous que chaque règle avec des conditions approximatives a au moins une condition de correspondance exacte.
Ne faites pas correspondre les colonnes qui contiennent des données fortement répétées. Assurez-vous que les colonnes à correspondance approximative n’ont pas de valeurs répétées fréquemment, par exemple la valeur par défaut « Prénom » d’un formulaire.
Performances d’unification
L’exécution de chaque règle prend du temps. Des modèles tels que la comparaison de chaque table à toutes les autres tables ou la tentative de capturer toutes les correspondances d’enregistrements possibles peuvent entraîner de longs délais de traitement de l’unification. Il renvoie également peu ou pas plus de correspondances sur un plan qui compare chaque table à une table de base.
La meilleure approche consiste à commencer par un ensemble de règles de base dont vous savez qu’elles sont nécessaires, par exemple en comparant chaque table à votre table principale. Votre table principale devrait être la table qui dispose des données les plus complètes et exactes. Ce tableau doit être classé en haut de l’étape Unification des règles d’appariement.
Ajoutez progressivement plusieurs règles et voyez combien de temps les modifications prennent pour s’exécuter et si vos résultats s’améliorent. Accédez à Paramètres>Système>Statut et sélectionnez Correspondance pour voir la durée de la déduplication et de la correspondance pour chaque exécution de l’unification.
Affichez les statistiques des règles dans les pages Règles de déduplication et Règles de correspondance pour voir si le nombre d’enregistrements uniques a changé. Si une nouvelle règle correspond à certains enregistrements et que le nombre d’enregistrements uniques ne change pas, une règle précédente identifie ces correspondances.
Déduplication
Utilisez des règles de déduplication pour supprimer les enregistrements client en double dans une table, afin qu’une seule ligne de chaque table représente chaque client. Une bonne règle identifie un client unique.
Dans cet exemple simple, les enregistrements 1, 2 et 3 partagent une adresse e-mail ou un numéro de téléphone et représentent la même personne.
ID | Nom | votre numéro de | |
---|---|---|---|
1 | Personne 1 | (425) 555-1111 | AAA@A.com |
2 | Personne 1 | (425) 555-1111 | BBB@B.com |
3 | Personne 1 | (425) 555-2222 | BBB@B.com |
4 | Personne 2 | (206) 555-9999 | Person2@contoso.com |
Nous ne voulons pas faire correspondre uniquement le nom, car cela ferait correspondre différentes personnes portant le même nom.
Créez la règle 1 à l’aide de Nom et téléphone, qui correspond aux enregistrements 1 et 2.
Créez la règle 2 à l’aide du nom et de l’adresse e-mail, qui correspond aux enregistrements 2 et 3.
La combinaison de la règle 1 et de la règle 2 crée un seul groupe de correspondance car elles partagent l’enregistrement 2.
C’est vous qui décidez du nombre de règles et de conditions qui identifient vos clients de manière unique. Les règles exactes dépendent des données dont vous disposez pour les mettre en correspondance, de la qualité de vos données et de l’exhaustivité que vous souhaitez que le processus de déduplication soit.
Normalisation
Utilisez la normalisation pour standardiser les données afin d’améliorer leur appariement. La normalisation fonctionne bien sur de grands ensembles de données.
Les données normalisées ne sont utilisées qu’à des fins de comparaison afin de correspondre plus efficacement aux enregistrements des clients. Cela ne modifie pas les données dans la sortie finale du profil client unifié.
Correspondance exacte
Utilisez la précision pour déterminer à quel point deux chaînes doivent être proches pour être considérées comme une correspondance. Le paramètre de précision par défaut nécessite une correspondance exacte. Toute autre valeur active la correspondance approximative pour cette condition.
La précision peut être définie sur faible (correspondance à 30 %), moyenne (correspondance à 60 %) et élevée (correspondance à 80 %). Vous pouvez également personnaliser et définir la précision par incréments de 1 %.
Conditions de correspondance exacte
Les conditions de correspondance exactes sont exécutées en premier pour obtenir un ensemble plus petit de valeurs pour les correspondances approximatives. Pour être efficaces, les conditions de correspondance exacte doivent avoir un degré raisonnable d’unicité. Par exemple, si tous vos clients vivent dans le même pays/la même région, le fait d’avoir une correspondance exacte sur le pays/la région ne permet pas de réduire le champ d’application.
Les colonnes telles que les champs de nom complet, d’e-mail, de téléphone ou d’adresse ont un bon caractère unique et constituent d’excellentes colonnes à utiliser comme correspondance exacte.
Assurez-vous que la colonne que vous utilisez pour une condition de correspondance exacte ne comporte pas de valeurs répétées fréquemment, telles que la valeur par défaut « Firstname » capturée par un formulaire. Customer Insights peut profiler des colonnes de données pour fournir des informations sur les principales valeurs répétitives. Vous pouvez activer le profilage des données sur les connexions Azure Data Lake (à l’aide du Common Data Model ou du format Delta) et Synapse. Le profil de données est exécuté lors de la prochaine actualisation de la source de données. Pour plus d’informations, voir Profilage des données.
Correspondance approximative
Utilisez la correspondance approximative pour mettre en correspondance des chaînes qui sont proches mais qui ne sont pas exactes en raison de fautes de frappe ou d’autres petites variations. Utilisez la correspondance approximative de manière stratégique, car elle est plus lente que les correspondances exactes. Assurez-vous qu’il y a au moins une condition de correspondance exacte dans toute règle contenant des conditions approximatives.
La correspondance approximative n’est pas destinée à capturer des variations de noms comme Suzzie et Suzanne. Ces variations sont mieux capturées dans le modèle de normalisation Type : Nom ou la Correspondance d’alias personnalisée, où les clients peuvent saisir leur liste de variations de nom qu’ils souhaitent considérer comme des correspondances.
Vous pouvez ajouter des conditions à une règle, telles que la correspondance du Prénom et du Téléphone. Les conditions à l’intérieur d’une règle donnée sont des conditions « ET ». Chaque condition doit correspondre pour que les lignes correspondent. Les règles distinctes sont des conditions « OU ». Si la règle 1 ne correspond pas aux lignes, celles-ci sont comparées à la règle 2.
Note
Seules les colonnes de type de données chaîne peuvent utiliser la correspondance floue. Pour les colonnes avec d’autres types de données tels qu’entier, double ou dateheure, le champ de précision est en lecture seule et défini sur la correspondance exacte.
Calculs de correspondance floue
Les correspondances partielles sont déterminées en calculant le score de la distance d’édition entre deux chaînes. Si le score atteint ou dépasse le seuil de précision, les chaînes sont considérées comme une correspondance.
La distance d’édition est le nombre de modifications nécessaires pour transformer une chaîne en une autre, en ajoutant, supprimant ou modifiant un caractère.
Par exemple, les chaînes « Jacqueline » et « Jaclyne » ont une distance d’édition de cinq lorsque nous supprimons les caractères q, u, e, i et e et insérons le caractère y.
Pour calculer le score de distance de modification, utilisez cette formule : (Longueur de la chaîne de base – Distance de modification) / Longueur de la chaîne de base.
Chaîne de base | Chaîne de comparaison | Score |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=0,6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |