Κοινή χρήση μέσω


Πώς μπορείτε να επιταχύνετε την προετοιμασία δεδομένων με το Data Wrangler στο Microsoft Fabric

Το εργαλείο Data Wrangler είναι ένας πόρος που βασίζεται σε σημειωματάριο που παρέχει μια συναρπαστική διασύνδεση για διερευνητική ανάλυση δεδομένων. Συνδυάζει μια εμφάνιση δεδομένων τύπου πλέγματος με δυναμικά συνοπτικά στατιστικά στοιχεία, ενσωματωμένες απεικονίσεις και μια βιβλιοθήκη συνήθων λειτουργιών καθαρισμού δεδομένων. Μπορείτε να εφαρμόσετε κάθε λειτουργία με λίγα βήματα. Μπορείτε να ενημερώσετε την εμφάνιση των δεδομένων σε πραγματικό χρόνο και να δημιουργήσετε κώδικα σε pandas ή PySpark που μπορείτε να αποθηκεύσετε ξανά στο σημειωματάριο ως λειτουργία που μπορεί να επαναχρησιμοποιείται. Αυτό το άρθρο εστιάζει στην εξερεύνηση και τον μετασχηματισμό των pandas DataFrames. Για περισσότερες πληροφορίες σχετικά με τη χρήση του Data Wrangler στο Spark DataFrames, επισκεφθείτε αυτόν τον πόρο.

Προαπαιτούμενα στοιχεία

  • Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.

  • Εισέλθετε στο Microsoft Fabric.

  • Χρησιμοποιήστε την εναλλαγή εμπειρίας στην κάτω αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε σε Fabric.

    Στιγμιότυπο οθόνης του μενού εναλλαγής εμπειρίας, που εμφανίζει πού μπορείτε να επιλέξετε Επιστήμη δεδομένων.

Περιορισμοί

  • Οι λειτουργίες προσαρμοσμένου κώδικα υποστηρίζονται προς το παρόν μόνο για pandas DataFrames.
  • Η οθόνη Data Wrangler λειτουργεί καλύτερα σε μεγάλες οθόνες, παρόλο που μπορείτε να ελαχιστοποιήσετε ή να αποκρύψετε διαφορετικά τμήματα της διασύνδεσης, για να χωρέσετε μικρότερες οθόνες.

Εκκίνηση του Data Wrangler

Μπορείτε να εκκινήσετε το Data Wrangler απευθείας από ένα σημειωματάριο Microsoft Fabric για να εξερευνήσετε και να μετασχηματίζετε οποιαδήποτε pandas ή Spark DataFrame. Για περισσότερες πληροφορίες σχετικά με τη χρήση του Data Wrangler με το Spark DataFrames, επισκεφθείτε αυτό το συνοδευτικό άρθρο. Αυτό το τμήμα κώδικα εμφανίζει τον τρόπο ανάγνωσης δείγματος δεδομένων σε ένα dataFrame pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Στην καρτέλα κορδέλας σημειωματάριου "Αρχική", χρησιμοποιήστε την αναπτυσσόμενη γραμμή εντολών Data Wrangler για να περιηγηθείτε στα ενεργά DataFrame που είναι διαθέσιμα για επεξεργασία. Επιλέξτε αυτό που θέλετε να ανοίξετε στο Data Wrangler.

Φιλοδώρημα

Δεν είναι δυνατό το άνοιγμα του Data Wrangler, ενώ ο πυρήνας σημειωματάριου είναι απασχολημένος. Ένα κελί εκτέλεσης πρέπει να ολοκληρώσει την εκτέλεσή του πριν την εκκίνηση του Data Wrangler, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει ένα σημειωματάριο Fabric με την αναπτυσσόμενη γραμμή εντολών Data Wrangler.

Επιλογή προσαρμοσμένων δειγμάτων

Για να ανοίξετε ένα προσαρμοσμένο δείγμα οποιουδήποτε ενεργού DataFrame με Data Wrangler, επιλέξτε "Επιλογή προσαρμοσμένου δείγματος" από την αναπτυσσόμενη λίστα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει την αναπτυσσόμενη γραμμή εντολών Data Wrangler με περίγραμμα στην επιλογή προσαρμοσμένου δείγματος.

Αυτό εκκινεί ένα αναδυόμενο παράθυρο με επιλογές για τον καθορισμό του μεγέθους του επιθυμητού δείγματος (αριθμός γραμμών) και της μεθόδου δειγματοληψίας (πρώτες εγγραφές, τελευταίες εγγραφές ή ένα τυχαίο σύνολο). Οι πρώτες 5.000 γραμμές του DataFrame λειτουργούν ως το προεπιλεγμένο μέγεθος δείγματος, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει την ερώτηση προσαρμοσμένου δείγματος data Wrangler.

Προβολή συνοπτικών στατιστικών στοιχείων

Όταν φορτώνει το Data Wrangler, εμφανίζει μια περιγραφική επισκόπηση του επιλεγμένου DataFrame στον πίνακα "Σύνοψη". Αυτή η επισκόπηση περιλαμβάνει πληροφορίες σχετικά με τις διαστάσεις του DataFrame, τις τιμές που λείπουν και πολλά άλλα. Η επιλογή οποιασδήποτε στήλης στο πλέγμα data Wrangler ζητά από τον πίνακα "Σύνοψη" να ενημερώσει και να εμφανίσει περιγραφικά στατιστικά στοιχεία σχετικά με αυτή τη συγκεκριμένη στήλη. Οι γρήγορες πληροφορίες για κάθε στήλη είναι επίσης διαθέσιμες στην κεφαλίδα της.

Φιλοδώρημα

Τα στατιστικά στοιχεία και οι απεικονίσεις για συγκεκριμένες στήλες (τόσο στον πίνακα "Σύνοψη" όσο και στις κεφαλίδες στηλών) εξαρτώνται από τον τύπο δεδομένων στήλης. Για παράδειγμα, ένα ιστόγραμμα σε κάδους μιας αριθμητικής στήλης εμφανίζεται στην κεφαλίδα στήλης μόνο εάν η στήλη έχει μεταβληθεί ως αριθμητικός τύπος, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει το πλέγμα διάταξης δεδομένων και τον πίνακα σύνοψης.

Περιήγηση σε λειτουργίες καθαρισμού δεδομένων

Μπορείτε να βρείτε μια λίστα βημάτων καθαρισμού δεδομένων με δυνατότητα αναζήτησης στον πίνακα "Λειτουργίες". Από τον πίνακα "Λειτουργίες", η επιλογή ενός βήματος εκκαθάρισης δεδομένων σάς ζητά να παράσχετε μια στήλη ή στήλες προορισμού, μαζί με τυχόν απαραίτητες παραμέτρους για την ολοκλήρωση του βήματος. Για παράδειγμα, η προτροπή για αριθμητική κλιμάκωση μιας στήλης απαιτεί μια νέα περιοχή τιμών, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει τον πίνακα Λειτουργίες Wrangler δεδομένων.

Φιλοδώρημα

Μπορείτε να εφαρμόσετε μια μικρότερη επιλογή λειτουργιών από το μενού κάθε κεφαλίδας στήλης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει μια λειτουργία Data Wrangler που μπορεί να εφαρμοστεί από το μενού κεφαλίδας στήλης.

Λειτουργίες προεπισκόπησης και εφαρμογής

Το πλέγμα προβολής Data Wrangler κάνει αυτόματα προεπισκόπηση των αποτελεσμάτων μιας επιλεγμένης λειτουργίας και ο αντίστοιχος κώδικας εμφανίζεται αυτόματα στον πίνακα κάτω από το πλέγμα. Για να υποβάλετε τον κώδικα προεπισκόπησης, επιλέξτε "Εφαρμογή" σε οποιοδήποτε σημείο. Για να διαγράψετε τον κώδικα προεπισκόπησης και να δοκιμάσετε μια νέα λειτουργία, επιλέξτε "Απόρριψη" όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει μια λειτουργία Data Wrangler σε εξέλιξη.

Όταν εφαρμοστεί μια λειτουργία, το Data Wrangler εμφανίζει το πλέγμα και τα συνοπτικά στατιστικά στοιχεία ενημερώνονται ώστε να αντικατοπτρίζουν τα αποτελέσματα. Ο κώδικας εμφανίζεται στη λίστα εκτέλεσης των δεσμευμένων λειτουργιών, που βρίσκεται στον πίνακα "Βήματα καθαρισμού", όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει μια εφαρμοσμένη λειτουργία Data Wrangler.

Φιλοδώρημα

Μπορείτε πάντα να αναιρέσετε το πιο πρόσφατο βήμα που εφαρμόσατε. Στον πίνακα "Βήματα καθαρισμού", θα εμφανιστεί ένα εικονίδιο κάδου απορριμμάτων εάν τοποθετήσετε τον δείκτη ποντικιού πάνω σε αυτό το πιο πρόσφατο βήμα που εφαρμόσατε, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει μια λειτουργία Data Wrangler που μπορεί να αναιρεθεί.

Αυτός ο πίνακας συνοψίζει τις λειτουργίες που υποστηρίζει αυτήν τη στιγμή το Data Wrangler:

Λειτουργία Περιγραφή
Ταξινόμηση Ταξινόμηση στήλης σε αύξουσα ή φθίνουσα σειρά
Φίλτρο Φιλτράρισμα γραμμών βάσει μίας ή περισσότερων συνθηκών
Κωδικοποιητής μίας πρόσβασης Δημιουργήστε νέες στήλες για κάθε μοναδική τιμή σε μια υπάρχουσα στήλη, υποδεικνύοντας την παρουσία ή την απουσία αυτών των τιμών ανά γραμμή
Κωδικοποιητής μίας πρόσβασης με οριοθέτη Διαίρεση και κωδικοποίηση κατηγορικών δεδομένων μίας πρόσβασης με χρήση οριοθέτη
Αλλαγή τύπου στήλης Αλλαγή του τύπου δεδομένων μιας στήλης
Απόθεση στήλης Διαγραφή μίας ή περισσότερων στηλών
Επιλογή στήλης Επιλέξτε μία ή περισσότερες στήλες για διατήρηση και διαγράψτε τις υπόλοιπες
Μετονομασία στήλης Μετονομασία στήλης
Αποθέστε τις τιμές που λείπουν Κατάργηση γραμμών με τιμές που λείπουν
Κατάργηση διπλότυπων γραμμών Κατάργηση όλων των γραμμών που έχουν διπλότυπες τιμές σε μία ή περισσότερες στήλες
Συμπληρώστε τις τιμές που λείπουν Αντικατάσταση κελιών με τιμές που λείπουν με μια νέα τιμή
Εύρεση και αντικατάσταση Αντικατάσταση κελιών με μοτίβο ακριβούς αντιστοίχισης
Ομαδοποίηση κατά στήλη και συγκεντρωτική τιμή Ομαδοποίηση κατά τιμές στήλης και συγκεντρωτικά αποτελέσματα
Κενό διάστημα λωρίδας Κατάργηση κενών διαστημάτων από την αρχή και το τέλος του κειμένου
Διαίρεση κειμένου Διαίρεση μιας στήλης σε πολλές στήλες με βάση έναν οριοθέτη που ορίζεται από τον χρήστη
Μετατροπή κειμένου σε πεζά Μετατροπή κειμένου σε πεζά
Μετατροπή κειμένου σε κεφαλαία Μετατροπή κειμένου σε ΚΕΦΑΛΑΊΑ
Ελάχιστη/μέγιστη κλίμακα τιμών Αλλαγή κλίμακας μιας αριθμητικής στήλης μεταξύ μιας ελάχιστης και μέγιστης τιμής
Γέμισμα flash Αυτόματη δημιουργία νέας στήλης βάσει παραδειγμάτων που προέρχονται από μια υπάρχουσα στήλη

Τροποποίηση της οθόνης σας

Ανά πάσα στιγμή, μπορείτε να προσαρμόσετε τη διασύνδεση με την καρτέλα "Προβολές" στη γραμμή εργαλείων που βρίσκεται πάνω από το εμφανιζόμενο πλέγμα data Wrangler. Αυτό μπορεί να αποκρύψει ή να εμφανίσει διαφορετικά τμήματα παραθύρου με βάση τις προτιμήσεις σας και το μέγεθος της οθόνης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει το μενού Data Wrangler για την προσαρμογή της προβολής εμφάνισης.

Αποθήκευση και εξαγωγή κώδικα

Η γραμμή εργαλείων πάνω από το πλέγμα εμφάνισης του Data Wrangler παρέχει επιλογές για την αποθήκευση του κώδικα που δημιουργήθηκε. Μπορείτε να αντιγράψετε τον κώδικα στο πρόχειρο ή να τον εξαγάγετε στο σημειωματάριο ως συνάρτηση. Η εξαγωγή του κώδικα κλείνει το Data Wrangler και προσθέτει τη νέα συνάρτηση σε ένα κελί κώδικα στο σημειωματάριο. Μπορείτε επίσης να κάνετε λήψη του εκκαθαρισμένου DataFrame ως αρχείο csv.

Φιλοδώρημα

Το Data Wrangler δημιουργεί κώδικα που εφαρμόζεται μόνο όταν εκτελείτε με μη αυτόματο τρόπο το νέο κελί και δεν αντικαθιστά το αρχικό DataFrame, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει τις επιλογές εξαγωγής κώδικα στο Data Wrangler.

Στη συνέχεια, μπορείτε να εκτελέσετε αυτόν τον εξαγόμενο κώδικα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:

Στιγμιότυπο οθόνης που εμφανίζει τον κώδικα που δημιουργήθηκε από το Data Wrangler στο σημειωματάριο.