Βέλτιστες πρακτικές ενοποίησης δεδομένων
Όταν ορίζετε κανόνες για την ενοποίηση των δεδομένων σας σε ένα προφίλ πελάτη, λάβετε υπόψη αυτές τις βέλτιστες πρακτικές:
Χρόνος εξισορρόπησης για ενοποίηση έναντι πλήρους αντιστοίχισης. Η προσπάθεια να συλληφθεί κάθε πιθανός αγώνας οδηγεί σε πολλούς κανόνες και η ενοποίηση διαρκεί πολύ.
Προσθέστε κανόνες σταδιακά και παρακολουθήστε τα αποτελέσματα. Καταργήστε κανόνες που δεν βελτιώνουν το αποτέλεσμα της αντιστοίχισης.
Καταργήστε τα διπλότυπα κάθε πίνακα, έτσι ώστε κάθε πελάτης να εκπροσωπείται σε μία γραμμή.
Χρησιμοποιήστε κανονικοποίηση για να τυποποιήσετε παραλλαγές στον τρόπο εισαγωγής των δεδομένων, όπως Street vs. St vs. St. vs. St. vs. st.
Χρησιμοποιήστε ασαφή συμφωνία στρατηγικά για να διορθώσετε τυπογραφικά λάθη και σφάλματα όπως bob@contoso.com και bob@contoso.cm. Οι ασαφείς αγώνες χρειάζονται περισσότερο χρόνο για να εκτελεστούν από τους ακριβείς αγώνες. Πάντα να δοκιμάζετε για να δείτε αν ο επιπλέον χρόνος που δαπανάται για ασαφή αντιστοίχιση αξίζει το επιπλέον ποσοστό αντιστοίχισης.
Περιορίστε το εύρος των αντιστοιχίσεων με ακριβή αντιστοίχιση. Βεβαιωθείτε ότι κάθε κανόνας με ασαφείς συνθήκες έχει τουλάχιστον μία ακριβή συνθήκη αντιστοίχισης.
Μην αντιστοιχίζετε στήλες που περιέχουν δεδομένα που επαναλαμβάνονται σε μεγάλο βαθμό. Βεβαιωθείτε ότι οι στήλες με ασαφή αντιστοίχιση δεν έχουν τιμές που επαναλαμβάνονται συχνά, όπως η προεπιλεγμένη τιμή "Όνομα" μιας φόρμας.
Επιδόσεις ενοποίησης
Κάθε κανόνας χρειάζεται χρόνο για να εκτελεστεί. Μοτίβα όπως η σύγκριση κάθε πίνακα με κάθε άλλο πίνακα ή η προσπάθεια καταγραφής κάθε πιθανής αντιστοίχισης εγγραφών μπορεί να οδηγήσει σε μεγάλους χρόνους επεξεργασίας ενοποίησης. Επίσης, επιστρέφει λίγες, αν όχι περισσότερες, αντιστοιχίσεις σε ένα σχέδιο που συγκρίνει κάθε πίνακα με έναν βασικό πίνακα.
Η καλύτερη προσέγγιση είναι να ξεκινήσετε με ένα βασικό σύνολο κανόνων που γνωρίζετε ότι είναι απαραίτητοι, όπως η σύγκριση κάθε πίνακα με τον κύριο πίνακα. Ο πρωτεύων πίνακάς σας θα πρέπει να είναι ο πίνακας με τα πιο πλήρη και ακριβή δεδομένα. Αυτός ο πίνακας θα πρέπει να ταξινομηθεί στην κορυφή στο βήμα ενοποίησης κανόνων αντιστοίχισης.
Προσθέστε σταδιακά αρκετούς κανόνες και δείτε πόσος χρόνος χρειάζεται για να εκτελεστούν οι αλλαγές και αν τα αποτελέσματά σας βελτιώνονται. Μεταβείτε Ρυθμίσεις>Σύστημα>Κατάσταση κι επιλέξτε Αντιστοίχιση για να δείτε πόσο χρόνο χρειάστηκε η κατάργηση διπλοτύπων και το ταίριασμα για κάθε εκτέλεση ενοποίησης.
Δείτε τα στατιστικά στοιχεία των κανόνων στις σελίδες Κανόνες κατάργησης διπλοτύπων και Κανόνες αντιστοίχισης για να δείτε αν ο αριθμός των Μοναδικών εγγραφών αλλάζει. Εάν ένας νέος κανόνας ταιριάζει με ορισμένες εγγραφές και το μοναδικό πλήθος εγγραφών δεν αλλάξει, τότε ένας προηγούμενος κανόνας προσδιορίζει αυτές τις αντιστοιχίσεις.
Δεδομένα πελάτη
Στο βήμα Δεδομένα πελάτη:
Εξαιρέστε στήλες που δεν είναι απαραίτητες για την αντιστοίχιση κανόνων ή που δεν θέλετε να συμπεριληφθούν στο προφίλ τελικού πελάτη.
Αναθεώρηση περιγραφών στηλών που έχουν επιλεγεί με έξυπνη αντιστοίχιση.
Δεν χρειάζεται να αντιστοιχιστούν όλες οι στήλες. Η αντιστοίχιση συνηθισμένων στηλών, όπως τα πεδία ηλεκτρονικού ταχυδρομείου και διεύθυνσης, επιτρέπει στο Customer Insights να διευκολύνει τις κατάντη διαδικασίες, αλλά οι στήλες με μοναδικό αναγνωριστικό ή σκοπό για την επιχείρησή σας μπορούν να παραμείνουν χωρίς αντιστοίχιση.
Κατάργηση διπλοτύπων
Χρησιμοποιήστε κανόνες κατάργησης διπλοτύπων για να καταργήσετε διπλότυπες καρτέλες πελατών μέσα σε έναν πίνακα, έτσι ώστε μία γραμμή σε κάθε πίνακα να αντιπροσωπεύει κάθε πελάτη. Ένας καλός κανόνας προσδιορίζει έναν μοναδικό πελάτη.
Σε αυτό το απλό παράδειγμα, οι εγγραφές 1, 2 και 3 μοιράζονται είτε ένα email είτε έναν αριθμό τηλεφώνου και αντιπροσωπεύουν το ίδιο άτομο.
Αναγνωριστικό | Ονομασία | Αριθμός τηλεφώνου | Διεύθυνση ηλεκτρονικού ταχυδρομείου |
---|---|---|---|
1 | Άτομο 1 | (425) 555-1111 | AAA@A.com |
2 | Άτομο 1 | (425) 555-1111 | BBB@B.com |
3 | Άτομο 1 | (425) 555-2222 | BBB@B.com |
4 | Άτομο 2 | (206) 555-9999 | Person2@contoso.com |
Δεν θέλουμε να ταιριάζουμε με το όνομα ακριβώς όπως θα αντιστοιχούσε σε διαφορετικά άτομα με το ίδιο όνομα.
Δημιουργήστε τον κανόνα 1 χρησιμοποιώντας το Όνομα και τηλέφωνο, το οποίο ταιριάζει με τις εγγραφές 1 και 2.
Δημιουργήστε τον κανόνα 2 χρησιμοποιώντας το Όνομα και Email, το οποίο ταιριάζει με τις εγγραφές 2 και 3.
Ο συνδυασμός του Κανόνα 1 και του Κανόνα 2 δημιουργεί μια ομάδα αντιστοίχισης, επειδή κάνει κοινή χρήση της καρτέλας 2.
Εσείς αποφασίζετε τον αριθμό των κανόνων και των συνθηκών που προσδιορίζουν μοναδικά τους πελάτες σας. Οι ακριβείς κανόνες εξαρτώνται από τα δεδομένα που έχετε διαθέσιμα για αντιστοίχιση, την ποιότητα των δεδομένων σας και πόσο εξαντλητική θέλετε να είναι η διαδικασία κατάργησης διπλότυπων δεδομένων.
Κανονικοποίηση
Χρησιμοποιήστε την κανονικοποίηση για να τυποποιήσετε δεδομένα για καλύτερη αντιστοίχιση. Η κανονικοποίηση αποδίδει καλά σε μεγάλα σύνολα δεδομένων.
Τα κανονικοποιημένα δεδομένα χρησιμοποιούνται μόνο για σκοπούς σύγκρισης, ώστε να αντιστοιχούν πιο αποτελεσματικά τα αρχεία πελατών. Δεν αλλάζει τα δεδομένα στο τελικό ενοποιημένο αποτέλεσμα προφίλ πελάτη.
Ακριβής αντιστοιχία
Χρησιμοποιήστε ακρίβεια για να προσδιορίσετε πόσο κοντά πρέπει να είναι δύο συμβολοσειρές για να θεωρηθούν ταιριαστές. Η προεπιλεγμένη ρύθμιση ακρίβειας απαιτεί ακριβή αντιστοίχιση. Οποιαδήποτε άλλη τιμή επιτρέπει την ασαφή αντιστοίχιση για αυτήν τη συνθήκη.
Η ακρίβεια μπορεί να ρυθμιστεί σε χαμηλή (30% συμφωνία), μεσαία (60% συμφωνία) και υψηλή (80% συμφωνία). Ή μπορείτε να προσαρμόσετε και να ορίσετε την ακρίβεια σε βήματα 1%.
Συνθήκες ακριβής αντιστοίχισης
Οι ακριβείς συνθήκες αντιστοίχισης εκτελούνται πρώτα για να ληφθεί ένα μικρότερο σύνολο τιμών για ασαφείς αντιστοιχίσεις. Για να είναι αποτελεσματικές, οι συνθήκες ακριβούς συμφωνίας θα πρέπει να έχουν εύλογο βαθμό μοναδικότητας. Για παράδειγμα, εάν όλοι οι πελάτες σας ζουν στην ίδια χώρα/περιοχή, τότε η ακριβής αντιστοίχιση στη χώρα/περιοχή δεν θα βοηθούσε στον περιορισμό του εύρους.
Στήλες όπως το πλήρες όνομα, το email, το τηλέφωνο ή τα πεδία διεύθυνσης έχουν καλή μοναδικότητα και είναι εξαιρετικές στήλες για να χρησιμοποιηθούν ως ακριβής αντιστοίχιση.
Βεβαιωθείτε ότι η στήλη που χρησιμοποιείτε για μια συνθήκη ακριβούς αντιστοίχισης δεν έχει τιμές που επαναλαμβάνονται συχνά, όπως μια προεπιλεγμένη τιμή "Όνομα" που καταγράφεται από μια φόρμα. Το Customer Insights μπορεί να δημιουργήσει προφίλ στηλών δεδομένων για να παρέχει πληροφορίες σχετικά με τις κορυφαίες επαναλαμβανόμενες τιμές. Μπορείτε να ενεργοποιήσετε τη δημιουργία προφίλ δεδομένων σε συνδέσεις Azure Data Lake (χρησιμοποιώντας Common Data Model ή μορφή Delta) και στο Synapse. Το προφίλ δεδομένων εκτελείται την επόμενη ανανέωση του αρχείου προέλευσης δεδομένων. Για περισσότερες πληροφορίες, μεταβείτε στη δημιουργία προφίλ δεδομένων.
Ασαφής συμφωνία
Χρησιμοποιήστε ασαφή συμφωνία για να ταιριάξετε συμβολοσειρές που είναι κοντά, αλλά δεν είναι ακριβείς λόγω τυπογραφικών λαθών ή άλλων μικρών παραλλαγών. Χρησιμοποιήστε ασαφή συμφωνία στρατηγικά, καθώς είναι πιο αργή από τις ακριβείς αντιστοιχίσεις. Βεβαιωθείτε ότι υπάρχει τουλάχιστον μία συνθήκη ακριβούς αντιστοίχισης σε κάθε κανόνα που έχει ασαφείς συνθήκες.
Η ασαφής συμφωνία δεν αποσκοπεί στην καταγραφή παραλλαγών ονομάτων όπως Suzzie και Suzanne. Αυτές οι παραλλαγές αποτυπώνονται καλύτερα με το πρότυπο Κανονικοποίησης Τύπος: Όνομα ή την προσαρμοσμένη συμφωνία ψευδωνύμου, όπου οι πελάτες μπορούν να εισάγουν τη λίστα με τις παραλλαγές του ονόματος που θέλουν να θεωρήσουν ως αντιστοιχίες.
Μπορείτε να προσθέσετε συνθήκες σε έναν κανόνα, όπως η αντιστοίχιση "Όνομα" και "Τηλέφωνο". Οι συνθήκες μέσα σε έναν δεδομένο κανόνα είναι συνθήκες "AND". Κάθε συνθήκη πρέπει να ταιριάζει για να ταιριάζουν οι σειρές. Οι ξεχωριστοί κανόνες είναι συνθήκες "OR". Εάν ο κανόνας 1 δεν ταιριάζει με τις γραμμές, τότε οι γραμμές συγκρίνονται με τον κανόνα 2.
Σημείωμα
Μόνο οι στήλες τύπου δεδομένων συμβολοσειράς μπορούν να χρησιμοποιούν ασαφή συμφωνία. Για στήλες με άλλους τύπους δεδομένων, όπως ακέραιος, διπλός ή ημερομηνία/ώρα, το πεδίο ακρίβειας είναι μόνο για ανάγνωση και έχει οριστεί στην ακριβή αντιστοίχιση.
Υπολογισμοί ασαφούς συμφωνίας
Οι ασαφείς συμφωνίες καθορίζονται υπολογίζοντας τη βαθμολογία απόστασης επεξεργασίας μεταξύ δύο συμβολοσειρών. Εάν η βαθμολογία πληροί ή υπερβαίνει το όριο ακρίβειας, οι συμβολοσειρές θεωρούνται αντιστοιχίες.
Η απόσταση επεξεργασίας είναι ο αριθμός των επεξεργασιών που απαιτούνται για να μετατρέψετε μια συμβολοσειρά σε μια άλλη, προσθέτοντας, διαγράφοντας ή αλλάζοντας έναν χαρακτήρα.
Για παράδειγμα, οι συμβολοσειρές "robert2020@hotmail.com" και "robrt2020@hotmail.cm" έχουν απόσταση επεξεργασίας δύο όταν αφαιρούμε τους χαρακτήρες e και o. Για να υπολογίσετε τη βαθμολογία απόστασης επεξεργασίας, χρησιμοποιήστε αυτόν τον τύπο: (Μήκος βασικής συμβολοσειράς – Απόσταση επεξεργασίας) / Μήκος συμβολοσειράς βάσης.
Συμβολοσειρά βάσης | Συμβολοσειρά σύγκρισης | Βαθμολογία |
---|---|---|
robert2020@hotmail.com | robrt2020@hotmail.cm | (20 - 2)/20 = 0,9 |