Κοινή χρήση μέσω


Ασαφής συγχώνευση

ασαφής συγχώνευσης είναι μια δυνατότητα έξυπνης προετοιμασίας δεδομένων που μπορείτε να χρησιμοποιήσετε για να εφαρμόσετε αλγόριθμους ασαφούς αντιστοίχισης κατά τη σύγκριση στηλών. Αυτοί οι αλγόριθμοι προσπαθούν να βρουν αντιστοιχίσεις στους πίνακες που συγχωνεύονται.

Μπορείτε να ενεργοποιήσετε ασαφή συμφωνία στο κάτω μέρος του παραθύρου διαλόγου Συγχώνευση , επιλέγοντας το Χρήση ασαφούς συμφωνίας για να εκτελέσετε το κουμπί επιλογής συγχώνευσης. Περισσότερες πληροφορίες: επισκόπηση λειτουργιών συγχώνευσης

Σημείωση

Η ασαφής αντιστοίχιση υποστηρίζεται μόνο σε λειτουργίες συγχώνευσης σε στήλες κειμένου. Το Power Query χρησιμοποιεί τον αλγόριθμο ομοιότητας Jaccard για τη μέτρηση της ομοιότητας μεταξύ ζευγών παρουσιών.

Δείγμα σεναρίου

Μια συνηθισμένη περίπτωση χρήσης για ασαφή συμφωνία είναι με πεδία κειμένου ελεύθερης μορφής, όπως σε μια έρευνα. Για αυτό το άρθρο, το δείγμα πίνακα λήφθηκε απευθείας από μια ηλεκτρονική έρευνα που στάλθηκε σε μια ομάδα με μία μόνο ερώτηση: Ποια είναι τα αγαπημένα σας φρούτα;

Τα αποτελέσματα αυτής της έρευνας εμφανίζονται στην παρακάτω εικόνα.

δείγματος έρευνας με μη επεξεργασμένες καταχωρήσεις.

Στιγμιότυπο οθόνης του πίνακα εξόδου δείγματος έρευνας που περιέχει το γράφημα κατανομής στηλών που εμφανίζει εννέα διακριτές απαντήσεις με όλες τις απαντήσεις μοναδικές και τις απαντήσεις στην έρευνα με όλα τα τυπογραφικά λάθη, τον πληθυντικό ή τον ενικό και τα προβλήματα πεζών-ημάτων.

Οι εννέα εγγραφές αντικατοπτρίζουν τις υποβολές έρευνας. Το πρόβλημα με τις υποβολές έρευνας είναι ότι ορισμένες έχουν τυπογραφικά λάθη, ορισμένα είναι πληθυντικά, ορισμένα στον ενικό, ορισμένα είναι κεφαλαία και ορισμένα είναι πεζά.

Για βοήθεια με την τυποποίηση αυτών των τιμών, σε αυτό το παράδειγμα έχετε έναν πίνακα αναφοράς Fruits.

πίνακας αναφοράς Fruits.

Στιγμιότυπο οθόνης του πίνακα αναφοράς Φρούτα που περιέχει το γράφημα κατανομής στηλών που εμφανίζει τέσσερα ξεχωριστά φρούτα με όλους τους καρπούς μοναδικούς και τη λίστα των φρούτων: μήλο, ανανά, καρπούζι και μπανάνα.

Σημείωση

Για λόγους ευκολίας, αυτό το Fruits πίνακας αναφοράς περιλαμβάνει μόνο το όνομα των καρπών που θα χρειαστούν για αυτό το σενάριο. Ο πίνακας αναφοράς μπορεί να έχει όσες γραμμές χρειάζεστε.

Ο στόχος είναι να δημιουργήσετε έναν πίνακα όπως τον ακόλουθο, όπου έχετε τυποποιήσει όλες αυτές τις τιμές, ώστε να μπορείτε να κάνετε περισσότερη ανάλυση.

πίνακα αποτελεσμάτων δείγματος έρευνας.

Στιγμιότυπο οθόνης του πίνακα εξόδου δείγματος έρευνας με τη στήλη Ερώτηση που περιέχει το γράφημα κατανομής στηλών. Το γράφημα εμφανίζει εννέα διακριτές απαντήσεις με όλες τις απαντήσεις μοναδικές. Οι απαντήσεις στην έρευνα περιέχουν όλα τα τυπογραφικά λάθη, τον πληθυντικό ή τον ενικό και προβλήματα περίπτωσης. Ο πίνακας εξόδου περιέχει επίσης τη στήλη Φρούτα. Αυτή η στήλη περιέχει το γράφημα κατανομής στηλών που εμφανίζει τέσσερις διακριτές απαντήσεις με μία μοναδική απάντηση. Αναφέρει επίσης όλους τους καρπούς που έχουν ορθογραφηθεί σωστά, στον ενικό και στην κατάλληλη περίπτωση.

Ασαφής λειτουργία συγχώνευσης

Για να κάνετε την ασαφή συγχώνευση, ξεκινάτε κάνοντας μια συγχώνευση. Σε αυτή την περίπτωση, χρησιμοποιείτε έναν αριστερό εξωτερικό σύνδεσμο, όπου ο αριστερός πίνακας είναι αυτός από την έρευνα και ο δεξιός πίνακας είναι ο πίνακας αναφοράς Fruits. Στο κάτω μέρος του παραθύρου διαλόγου, επιλέξτε το πλαίσιο ελέγχου Χρήση ασαφούς συμφωνίας για να εκτελέσετε τη συγχώνευση.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου

Αφού επιλέξετε OK, μπορείτε να δείτε μια νέα στήλη στον πίνακά σας εξαιτίας αυτής της λειτουργίας συγχώνευσης. Εάν την αναπτύξετε, υπάρχει μία γραμμή που δεν έχει τιμές σε αυτήν. Αυτό ακριβώς ανέφερε το μήνυμα του παραθύρου διαλόγου στην προηγούμενη εικόνα όταν ανέφερε "Η επιλογή αντιστοιχεί σε 8 από 9 γραμμές από τον πρώτο πίνακα".

ασαφής συμφωνία έχει ως αποτέλεσμα τη στήλη

Στιγμιότυπο οθόνης της στήλης φρούτων που προστέθηκε στον πίνακα Survey. Όλες οι γραμμές στη στήλη Ερώτηση αναπτύσσονται, εκτός από τη γραμμή 9, η οποία δεν ήταν δυνατή η ανάπτυξη και η στήλη Fruit περιέχει την τιμή null.

Επιλογές για ασαφή συμφωνία

Μπορείτε να τροποποιήσετε τις επιλογές ασαφής αντιστοίχισης για να τροποποιήσετε τον τρόπο με τον οποίο θα πρέπει να γίνει η κατά προσέγγιση αντιστοίχιση. Πρώτα, επιλέξτε την εντολή Συγχώνευση ερωτημάτων και, στη συνέχεια, στο παράθυρο διαλόγου Συγχώνευση , αναπτύξτε επιλογές ασαφής αντιστοίχισης.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου

Οι διαθέσιμες επιλογές είναι:

  • όριο ομοιότητας (προαιρετικό): Μια τιμή μεταξύ 0,00 και 1,00 που παρέχει τη δυνατότητα αντιστοίχισης εγγραφών πάνω από μια δεδομένη βαθμολογία ομοιότητας. Το όριο 1,00 είναι το ίδιο όπως ο καθορισμός ακριβών κριτηρίων αντιστοίχισης. Για παράδειγμα, τα σταφύλια αντιστοιχίζεται με σταφύλια (λείπει το γράμμα p) μόνο εάν το όριο έχει οριστεί σε μικρότερο από 0,90. Από προεπιλογή, αυτή η τιμή ορίζεται σε 0,80.
  • Παραβλέψτευποθέσεων: Επιτρέπει την αντιστοίχιση εγγραφών, ανεξάρτητα από την περίπτωση του κειμένου.
  • Match συνδυάζοντας τμήματα κειμένου: Επιτρέπει τον συνδυασμό τμημάτων κειμένου για εύρεση αντιστοιχιών. Για παράδειγμα, το Micro soft αντιστοιχίζεται με Microsoft εάν αυτή η επιλογή είναι ενεργοποιημένη.
  • Εμφάνιση βαθμολογιών ομοιότητας: Εμφανίζει βαθμολογίες ομοιότητας μεταξύ της εισόδου και των αντιστοιχισμένων τιμών μετά από ασαφή συμφωνία.
  • Αριθμός αντιστοιχιών (προαιρετικά): Καθορίζει τον μέγιστο αριθμό αντιστοιχισμένων γραμμών που μπορούν να επιστραφούν για κάθε γραμμή εισόδου.
  • πίνακα μετασχηματισμού (προαιρετικό): Επιτρέπει την αντιστοίχιση εγγραφών με βάση αντιστοιχίσεις προσαρμοσμένων τιμών. Για παράδειγμα, σταφύλια αντιστοιχίζεται με σε περίπτωση που παρέχεται ένας πίνακας μετασχηματισμού όπου η στήλη Από περιέχει σταφύλια και η στήλη Προς περιέχει Σταφίδες .

Πίνακας μετασχηματισμού

Για το παράδειγμα σε αυτό το άρθρο, μπορείτε να χρησιμοποιήσετε έναν πίνακα μετασχηματισμού για να αντιστοιχίστε την τιμή που λείπει από ένα ζεύγος. Αυτή η τιμή είναι apls, η οποία πρέπει να αντιστοιχιστεί στο Apple. Ο πίνακας μετασχηματισμού σας έχει δύο στήλες:

  • Από περιέχει τις τιμές που θα βρεθούν.
  • Η περιέχει τις τιμές που χρησιμοποιούνται για την αντικατάσταση των τιμών που βρέθηκαν χρησιμοποιώντας τη στήλη Από.

Για αυτό το άρθρο, ο πίνακας μετασχηματισμού έχει την εξής εμφάνιση:

Από Προς
apls Μήλο

Μπορείτε να επιστρέψετε στο παράθυρο διαλόγου Συγχώνευση και στο επιλογές ασαφής αντιστοίχισης στην περιοχή Αριθμός αντιστοιχιών, πληκτρολογήστε 1. Ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητ ας και, στη συνέχεια, στην περιοχή Πίνακας μετασχηματισμού, επιλέξτε Μετασχηματισμός πίνακα από το αναπτυσσόμενο μενού.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου Συγχώνευση με τον αριθμό των αντιστοιχιών να έχουν οριστεί σε 1 και τον πίνακα Μετασχηματισμού να έχει οριστεί σε Μετασχηματισμός πίνακα.

Αφού επιλέξετε OK, μπορείτε να μεταβείτε στο βήμα συγχώνευσης. Όταν αναπτύσσετε τη στήλη με τιμές πίνακα, εκτός από το πεδίο Fruit βλέπετε επίσης το πεδίο βαθμολογίας Ομοιότητα. Επιλέξτε και τα δύο και αναπτύξτε τα χωρίς να προσθέσετε ένα πρόθεμα.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου ανάπτυξης πίνακα για τη στήλη Fruits που περιέχει τα επιλεγμένα πεδία βαθμολογίας Φρούτα και Ομοιότητα.

Αφού αναπτύξετε αυτά τα δύο πεδία, θα προστεθούν στον πίνακά σας. Σημειώστε τις τιμές που λαμβάνετε για τις βαθμολογίες ομοιότητας κάθε τιμής. Αυτές οι βαθμολογίες μπορούν να σας βοηθήσουν με περαιτέρω μετασχηματισμούς, εάν χρειάζεται, για να προσδιορίσετε εάν θα πρέπει να μειώσετε ή να αυξήσετε το όριο ομοιότητάς σας.

Στιγμιότυπο οθόνης της εξόδου πίνακα μετά την ασαφή διαδικασία συγχώνευσης που παρουσίασε τόσο τα νέα πεδία βαθμολογίας φρούτα όσο και τα πεδία βαθμολογίας ομοιότητας για κάθε τιμή.

Για αυτό το παράδειγμα, η βαθμολογία ομοιότητας χρησιμεύει μόνο ως πρόσθετες πληροφορίες και δεν είναι απαραίτητη στην έξοδο αυτού του ερωτήματος, επομένως, μπορείτε να την καταργήσετε. Παρατηρήστε πώς το παράδειγμα ξεκίνησε με εννέα διακριτές τιμές, αλλά μετά τη ασαφή συγχώνευση υπάρχουν μόνο τέσσερις διακριτές τιμές.

πίνακα εξόδου ασαφούς έρευνας συγχώνευσης.

Στιγμιότυπο οθόνης του πίνακα εξόδου ασαφούς έρευνας συγχώνευσης με τη στήλη Ερώτηση που περιέχει το γράφημα κατανομής στηλών που εμφανίζει εννέα διακριτές απαντήσεις με όλες τις απαντήσεις μοναδικές, καθώς και τις απαντήσεις στην έρευνα με όλα τα προβλήματα τυπογραφικά λάθη, πληθυντικό ή ενικό και πεζά. Περιέχει επίσης τη στήλη Φρούτα με το γράφημα κατανομής στηλών που εμφανίζει τέσσερις διακριτές απαντήσεις με μία μοναδική απάντηση και παραθέτει όλους τους καρπούς σωστά ορθογραφημένους, μοναδικούς και κατάλληλους χαρακτήρες.

Για περισσότερες πληροφορίες σχετικά με τον τρόπο λειτουργίας των πινάκων μετασχηματισμού, μεταβείτε τα διδάγματα του πίνακα Μετασχηματισμού.