Πώς μπορείτε να επιταχύνετε την προετοιμασία δεδομένων με το Data Wrangler στο Microsoft Fabric
Το εργαλείο Data Wrangler είναι ένας πόρος που βασίζεται σε σημειωματάριο που παρέχει μια συναρπαστική διασύνδεση για διερευνητική ανάλυση δεδομένων. Συνδυάζει μια εμφάνιση δεδομένων τύπου πλέγματος με δυναμικά συνοπτικά στατιστικά στοιχεία, ενσωματωμένες απεικονίσεις και μια βιβλιοθήκη συνήθων λειτουργιών καθαρισμού δεδομένων. Μπορείτε να εφαρμόσετε κάθε λειτουργία με λίγα βήματα. Μπορείτε να ενημερώσετε την εμφάνιση των δεδομένων σε πραγματικό χρόνο και να δημιουργήσετε κώδικα σε pandas ή PySpark που μπορείτε να αποθηκεύσετε ξανά στο σημειωματάριο ως λειτουργία που μπορεί να επαναχρησιμοποιείται. Αυτό το άρθρο εστιάζει στην εξερεύνηση και τον μετασχηματισμό των pandas DataFrames. Για περισσότερες πληροφορίες σχετικά με τη χρήση του Data Wrangler στο Spark DataFrames, επισκεφθείτε αυτόν τον πόρο.
Προαπαιτούμενα στοιχεία
Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.
Εισέλθετε στο Microsoft Fabric.
Χρησιμοποιήστε την εναλλαγή εμπειρίας στην κάτω αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε σε Fabric.
Περιορισμοί
- Οι λειτουργίες προσαρμοσμένου κώδικα υποστηρίζονται προς το παρόν μόνο για pandas DataFrames.
- Η οθόνη Data Wrangler λειτουργεί καλύτερα σε μεγάλες οθόνες, παρόλο που μπορείτε να ελαχιστοποιήσετε ή να αποκρύψετε διαφορετικά τμήματα της διασύνδεσης, για να χωρέσετε μικρότερες οθόνες.
Εκκίνηση του Data Wrangler
Μπορείτε να εκκινήσετε το Data Wrangler απευθείας από ένα σημειωματάριο Microsoft Fabric για να εξερευνήσετε και να μετασχηματίζετε οποιαδήποτε pandas ή Spark DataFrame. Για περισσότερες πληροφορίες σχετικά με τη χρήση του Data Wrangler με το Spark DataFrames, επισκεφθείτε αυτό το συνοδευτικό άρθρο. Αυτό το τμήμα κώδικα εμφανίζει τον τρόπο ανάγνωσης δείγματος δεδομένων σε ένα dataFrame pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Στην καρτέλα κορδέλας σημειωματάριου "Αρχική", χρησιμοποιήστε την αναπτυσσόμενη γραμμή εντολών Data Wrangler για να περιηγηθείτε στα ενεργά DataFrame που είναι διαθέσιμα για επεξεργασία. Επιλέξτε αυτό που θέλετε να ανοίξετε στο Data Wrangler.
Φιλοδώρημα
Δεν είναι δυνατό το άνοιγμα του Data Wrangler, ενώ ο πυρήνας σημειωματάριου είναι απασχολημένος. Ένα κελί εκτέλεσης πρέπει να ολοκληρώσει την εκτέλεσή του πριν την εκκίνηση του Data Wrangler, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Επιλογή προσαρμοσμένων δειγμάτων
Για να ανοίξετε ένα προσαρμοσμένο δείγμα οποιουδήποτε ενεργού DataFrame με Data Wrangler, επιλέξτε "Επιλογή προσαρμοσμένου δείγματος" από την αναπτυσσόμενη λίστα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αυτό εκκινεί ένα αναδυόμενο παράθυρο με επιλογές για τον καθορισμό του μεγέθους του επιθυμητού δείγματος (αριθμός γραμμών) και της μεθόδου δειγματοληψίας (πρώτες εγγραφές, τελευταίες εγγραφές ή ένα τυχαίο σύνολο). Οι πρώτες 5.000 γραμμές του DataFrame λειτουργούν ως το προεπιλεγμένο μέγεθος δείγματος, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Προβολή συνοπτικών στατιστικών στοιχείων
Όταν φορτώνει το Data Wrangler, εμφανίζει μια περιγραφική επισκόπηση του επιλεγμένου DataFrame στον πίνακα "Σύνοψη". Αυτή η επισκόπηση περιλαμβάνει πληροφορίες σχετικά με τις διαστάσεις του DataFrame, τις τιμές που λείπουν και πολλά άλλα. Η επιλογή οποιασδήποτε στήλης στο πλέγμα data Wrangler ζητά από τον πίνακα "Σύνοψη" να ενημερώσει και να εμφανίσει περιγραφικά στατιστικά στοιχεία σχετικά με αυτή τη συγκεκριμένη στήλη. Οι γρήγορες πληροφορίες για κάθε στήλη είναι επίσης διαθέσιμες στην κεφαλίδα της.
Φιλοδώρημα
Τα στατιστικά στοιχεία και οι απεικονίσεις για συγκεκριμένες στήλες (τόσο στον πίνακα "Σύνοψη" όσο και στις κεφαλίδες στηλών) εξαρτώνται από τον τύπο δεδομένων στήλης. Για παράδειγμα, ένα ιστόγραμμα σε κάδους μιας αριθμητικής στήλης εμφανίζεται στην κεφαλίδα στήλης μόνο εάν η στήλη έχει μεταβληθεί ως αριθμητικός τύπος, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Περιήγηση σε λειτουργίες καθαρισμού δεδομένων
Μπορείτε να βρείτε μια λίστα βημάτων καθαρισμού δεδομένων με δυνατότητα αναζήτησης στον πίνακα "Λειτουργίες". Από τον πίνακα "Λειτουργίες", η επιλογή ενός βήματος εκκαθάρισης δεδομένων σάς ζητά να παράσχετε μια στήλη ή στήλες προορισμού, μαζί με τυχόν απαραίτητες παραμέτρους για την ολοκλήρωση του βήματος. Για παράδειγμα, η προτροπή για αριθμητική κλιμάκωση μιας στήλης απαιτεί μια νέα περιοχή τιμών, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Φιλοδώρημα
Μπορείτε να εφαρμόσετε μια μικρότερη επιλογή λειτουργιών από το μενού κάθε κεφαλίδας στήλης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Λειτουργίες προεπισκόπησης και εφαρμογής
Το πλέγμα προβολής Data Wrangler κάνει αυτόματα προεπισκόπηση των αποτελεσμάτων μιας επιλεγμένης λειτουργίας και ο αντίστοιχος κώδικας εμφανίζεται αυτόματα στον πίνακα κάτω από το πλέγμα. Για να υποβάλετε τον κώδικα προεπισκόπησης, επιλέξτε "Εφαρμογή" σε οποιοδήποτε σημείο. Για να διαγράψετε τον κώδικα προεπισκόπησης και να δοκιμάσετε μια νέα λειτουργία, επιλέξτε "Απόρριψη" όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Όταν εφαρμοστεί μια λειτουργία, το Data Wrangler εμφανίζει το πλέγμα και τα συνοπτικά στατιστικά στοιχεία ενημερώνονται ώστε να αντικατοπτρίζουν τα αποτελέσματα. Ο κώδικας εμφανίζεται στη λίστα εκτέλεσης των δεσμευμένων λειτουργιών, που βρίσκεται στον πίνακα "Βήματα καθαρισμού", όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Φιλοδώρημα
Μπορείτε πάντα να αναιρέσετε το πιο πρόσφατο βήμα που εφαρμόσατε. Στον πίνακα "Βήματα καθαρισμού", θα εμφανιστεί ένα εικονίδιο κάδου απορριμμάτων εάν τοποθετήσετε τον δείκτη ποντικιού πάνω σε αυτό το πιο πρόσφατο βήμα που εφαρμόσατε, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αυτός ο πίνακας συνοψίζει τις λειτουργίες που υποστηρίζει αυτήν τη στιγμή το Data Wrangler:
Λειτουργία | Περιγραφή |
---|---|
Ταξινόμηση | Ταξινόμηση στήλης σε αύξουσα ή φθίνουσα σειρά |
Φίλτρο | Φιλτράρισμα γραμμών βάσει μίας ή περισσότερων συνθηκών |
Κωδικοποιητής μίας πρόσβασης | Δημιουργήστε νέες στήλες για κάθε μοναδική τιμή σε μια υπάρχουσα στήλη, υποδεικνύοντας την παρουσία ή την απουσία αυτών των τιμών ανά γραμμή |
Κωδικοποιητής μίας πρόσβασης με οριοθέτη | Διαίρεση και κωδικοποίηση κατηγορικών δεδομένων μίας πρόσβασης με χρήση οριοθέτη |
Αλλαγή τύπου στήλης | Αλλαγή του τύπου δεδομένων μιας στήλης |
Απόθεση στήλης | Διαγραφή μίας ή περισσότερων στηλών |
Επιλογή στήλης | Επιλέξτε μία ή περισσότερες στήλες για διατήρηση και διαγράψτε τις υπόλοιπες |
Μετονομασία στήλης | Μετονομασία στήλης |
Αποθέστε τις τιμές που λείπουν | Κατάργηση γραμμών με τιμές που λείπουν |
Κατάργηση διπλότυπων γραμμών | Κατάργηση όλων των γραμμών που έχουν διπλότυπες τιμές σε μία ή περισσότερες στήλες |
Συμπληρώστε τις τιμές που λείπουν | Αντικατάσταση κελιών με τιμές που λείπουν με μια νέα τιμή |
Εύρεση και αντικατάσταση | Αντικατάσταση κελιών με μοτίβο ακριβούς αντιστοίχισης |
Ομαδοποίηση κατά στήλη και συγκεντρωτική τιμή | Ομαδοποίηση κατά τιμές στήλης και συγκεντρωτικά αποτελέσματα |
Κενό διάστημα λωρίδας | Κατάργηση κενών διαστημάτων από την αρχή και το τέλος του κειμένου |
Διαίρεση κειμένου | Διαίρεση μιας στήλης σε πολλές στήλες με βάση έναν οριοθέτη που ορίζεται από τον χρήστη |
Μετατροπή κειμένου σε πεζά | Μετατροπή κειμένου σε πεζά |
Μετατροπή κειμένου σε κεφαλαία | Μετατροπή κειμένου σε ΚΕΦΑΛΑΊΑ |
Ελάχιστη/μέγιστη κλίμακα τιμών | Αλλαγή κλίμακας μιας αριθμητικής στήλης μεταξύ μιας ελάχιστης και μέγιστης τιμής |
Γέμισμα flash | Αυτόματη δημιουργία νέας στήλης βάσει παραδειγμάτων που προέρχονται από μια υπάρχουσα στήλη |
Τροποποίηση της οθόνης σας
Ανά πάσα στιγμή, μπορείτε να προσαρμόσετε τη διασύνδεση με την καρτέλα "Προβολές" στη γραμμή εργαλείων που βρίσκεται πάνω από το εμφανιζόμενο πλέγμα data Wrangler. Αυτό μπορεί να αποκρύψει ή να εμφανίσει διαφορετικά τμήματα παραθύρου με βάση τις προτιμήσεις σας και το μέγεθος της οθόνης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αποθήκευση και εξαγωγή κώδικα
Η γραμμή εργαλείων πάνω από το πλέγμα εμφάνισης του Data Wrangler παρέχει επιλογές για την αποθήκευση του κώδικα που δημιουργήθηκε. Μπορείτε να αντιγράψετε τον κώδικα στο πρόχειρο ή να τον εξαγάγετε στο σημειωματάριο ως συνάρτηση. Η εξαγωγή του κώδικα κλείνει το Data Wrangler και προσθέτει τη νέα συνάρτηση σε ένα κελί κώδικα στο σημειωματάριο. Μπορείτε επίσης να κάνετε λήψη του εκκαθαρισμένου DataFrame ως αρχείο csv.
Φιλοδώρημα
Το Data Wrangler δημιουργεί κώδικα που εφαρμόζεται μόνο όταν εκτελείτε με μη αυτόματο τρόπο το νέο κελί και δεν αντικαθιστά το αρχικό DataFrame, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Στη συνέχεια, μπορείτε να εκτελέσετε αυτόν τον εξαγόμενο κώδικα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Σχετικό περιεχόμενο
- Για να δοκιμάσετε το Data Wrangler στο Spark DataFrames, επισκεφθείτε αυτό το συνοδευτικό άρθρο
- Για μια επίδειξη ζωντανής ενέργειας του Data Wrangler στο Fabric, ρίξτε μια ματιά σε αυτό το βίντεο από τους φίλους μας στο Guy in a Cube
- Για να δοκιμάσετε το Data Wrangler στο Visual Studio Code, μεταβείτε στην περιοχή Data Wrangler στο VS Code
- Χάσαμε κάποια δυνατότητα που χρειάζεστε; Ενημερώστε μας! Προτείνετε το στο φόρουμ Ιδεών Fabric