Τρόπος χρήσης του Data Wrangler στα Πλαίσια δεδομένων Spark
Το Data Wrangler, ένα εργαλείο που βασίζεται σε σημειωματάριο για διερευνητική ανάλυση δεδομένων, υποστηρίζει πλέον αμφότερα τα Spark DataFrames και pandas DataFrames. Δημιουργεί κώδικα PySpark, επιπλέον του κώδικα Python. Για μια γενική επισκόπηση του Data Wrangler, που καλύπτει τον τρόπο εξερεύνησης και μετασχηματισμού των pandas DataFrames, επισκεφθείτε την κύρια εκμάθηση. Αυτή η εκμάθηση δείχνει πώς μπορείτε να χρησιμοποιήσετε το Data Wrangler για να εξερευνήσετε και να μετασχηματίσει τα Spark DataFrames.
Προαπαιτούμενα στοιχεία
Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.
Εισέλθετε στο Microsoft Fabric.
Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.
Περιορισμοί
- Οι λειτουργίες προσαρμοσμένου κώδικα υποστηρίζονται προς το παρόν μόνο για pandas DataFrames.
- Η οθόνη Data Wrangler λειτουργεί καλύτερα σε μεγάλες οθόνες, παρόλο που μπορείτε να ελαχιστοποιήσετε ή να αποκρύψετε διαφορετικά τμήματα της διασύνδεσης, για να χωρέσετε μικρότερες οθόνες.
Εκκίνηση του Data Wrangler με ένα Spark DataFrame
Οι χρήστες μπορούν να ανοίξουν το Spark DataFrames στο Data Wrangler απευθείας από ένα σημειωματάριο Microsoft Fabric, μεταβαίνοντας στην ίδια αναπτυσσόμενη γραμμή εντολών όπου εμφανίζονται τα pandas DataFrames. Μια λίστα με ενεργά Spark DataFrames εμφανίζεται στην αναπτυσσόμενη λίστα κάτω από τη λίστα των ενεργών μεταβλητών pandas.
Αυτό το τμήμα κώδικα δημιουργεί ένα Spark DataFrame με το ίδιο δείγμα δεδομένων που χρησιμοποιείται στο εκπαιδευτικό βοήθημα pandas Data Wrangler:
import pandas as pd
# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)
Στην καρτέλα κορδέλας σημειωματάριου "Αρχική", χρησιμοποιήστε την αναπτυσσόμενη γραμμή εντολών Data Wrangler για να περιηγηθείτε σε ενεργά DataFrame που είναι διαθέσιμα για επεξεργασία. Επιλέξτε αυτό που θέλετε να ανοίξετε στο Data Wrangler.
Φιλοδώρημα
Δεν είναι δυνατό το άνοιγμα του Data Wrangler, ενώ ο πυρήνας σημειωματάριου είναι απασχολημένος. Ένα κελί εκτέλεσης πρέπει να ολοκληρώσει την εκτέλεσή του πριν την εκκίνηση του Data Wrangler, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Επιλογή προσαρμοσμένων δειγμάτων
Το Data Wrangler μετατρέπει αυτόματα τα Spark DataFrames σε δείγματα pandas για λόγους απόδοσης. Ωστόσο, όλος ο κώδικας που δημιουργεί το εργαλείο μεταφράζεται τελικά στο PySpark όταν πραγματοποιεί εξαγωγή ξανά στο σημειωματάριο. Όπως και με όλα τα pandas DataFrame, μπορείτε να προσαρμόσετε το προεπιλεγμένο δείγμα. Για να ανοίξετε ένα προσαρμοσμένο δείγμα οποιουδήποτε ενεργού DataFrame με Data Wrangler, επιλέξτε "Επιλογή προσαρμοσμένου δείγματος" από την αναπτυσσόμενη λίστα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αυτό εκκινεί ένα αναδυόμενο παράθυρο με επιλογές για τον καθορισμό του μεγέθους του επιθυμητού δείγματος (αριθμός γραμμών) και της μεθόδου δειγματοληψίας (πρώτες εγγραφές, τελευταίες εγγραφές ή ένα τυχαίο σύνολο), όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Προβολή συνοπτικών στατιστικών στοιχείων
Όταν φορτώνει το Data Wrangler, εμφανίζει ένα ενημερωτικό πλαίσιο πάνω από το πλέγμα προεπισκόπησης. Αυτό το πλαίσιο εξηγεί ότι το Spark DataFrames μετατρέπεται προσωρινά σε δείγματα pandas, αλλά όλοι οι δημιουργημένοι κώδικαι τελικά μετατρέπονται σε PySpark. Παλαιότερα, η χρήση του Data Wrangler στο Spark DataFrames δεν διαφέρει από τη χρήση του σε pandas DataFrames. Μια περιγραφική επισκόπηση στον πίνακα "Σύνοψη" εμφανίζει πληροφορίες σχετικά με τις διαστάσεις του δείγματος, τις τιμές που λείπουν και πολλά άλλα. Η επιλογή οποιασδήποτε στήλης στο πλέγμα data Wrangler ζητά από τον πίνακα "Σύνοψη" να ενημερώσει και να εμφανίσει περιγραφικά στατιστικά στοιχεία σχετικά με αυτή τη συγκεκριμένη στήλη. Οι γρήγορες πληροφορίες για κάθε στήλη είναι επίσης διαθέσιμες στην κεφαλίδα της.
Φιλοδώρημα
Τα στατιστικά στοιχεία και οι απεικονίσεις για συγκεκριμένες στήλες (τόσο στον πίνακα "Σύνοψη" όσο και στις κεφαλίδες στηλών) εξαρτώνται από τον τύπο δεδομένων στήλης. Για παράδειγμα, ένα ιστόγραμμα σε κάδους μιας αριθμητικής στήλης θα εμφανίζεται στην κεφαλίδα στήλης μόνο εάν η στήλη έχει μεταβληθεί ως αριθμητικός τύπος, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Περιήγηση σε λειτουργίες καθαρισμού δεδομένων
Μπορείτε να βρείτε μια λίστα βημάτων καθαρισμού δεδομένων με δυνατότητα αναζήτησης στον πίνακα "Λειτουργίες". Από τον πίνακα "Λειτουργίες", η επιλογή ενός βήματος εκκαθάρισης δεδομένων σάς ζητά να παράσχετε μια στήλη ή στήλες προορισμού, μαζί με τυχόν απαραίτητες παραμέτρους για την ολοκλήρωση του βήματος. Για παράδειγμα, η προτροπή για αριθμητική κλιμάκωση μιας στήλης απαιτεί μια νέα περιοχή τιμών, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Φιλοδώρημα
Μπορείτε να εφαρμόσετε μια μικρότερη επιλογή λειτουργιών από το μενού κάθε κεφαλίδας στήλης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Λειτουργίες προεπισκόπησης και εφαρμογής
Το πλέγμα προβολής Data Wrangler κάνει αυτόματα προεπισκόπηση των αποτελεσμάτων μιας επιλεγμένης λειτουργίας και ο αντίστοιχος κώδικας εμφανίζεται αυτόματα στον πίνακα κάτω από το πλέγμα. Για να υποβάλετε τον κώδικα προεπισκόπησης, επιλέξτε "Εφαρμογή" σε οποιοδήποτε σημείο. Για να διαγράψετε τον κώδικα προεπισκόπησης και να δοκιμάσετε μια νέα λειτουργία, επιλέξτε "Απόρριψη" όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Όταν εφαρμοστεί μια λειτουργία, το Data Wrangler εμφανίζει το πλέγμα και τα συνοπτικά στατιστικά στοιχεία ενημερώνονται ώστε να αντικατοπτρίζουν τα αποτελέσματα. Ο κώδικας εμφανίζεται στη λίστα εκτέλεσης των δεσμευμένων λειτουργιών, που βρίσκεται στον πίνακα "Βήματα καθαρισμού", όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Φιλοδώρημα
Μπορείτε πάντα να αναιρέσετε το πιο πρόσφατο βήμα που εφαρμόσατε. Στον πίνακα "Βήματα καθαρισμού", θα εμφανιστεί ένα εικονίδιο κάδου απορριμμάτων εάν τοποθετήσετε τον δείκτη ποντικιού πάνω σε αυτό το πιο πρόσφατο βήμα που εφαρμόσατε, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αυτός ο πίνακας συνοψίζει τις λειτουργίες που υποστηρίζει αυτήν τη στιγμή το Data Wrangler:
Λειτουργία | Περιγραφή |
---|---|
Ταξινόμηση | Ταξινόμηση στήλης σε αύξουσα ή φθίνουσα σειρά |
Φίλτρο | Φιλτράρισμα γραμμών βάσει μίας ή περισσότερων συνθηκών |
Κωδικοποιητής μίας πρόσβασης | Δημιουργήστε νέες στήλες για κάθε μοναδική τιμή σε μια υπάρχουσα στήλη, υποδεικνύοντας την παρουσία ή την απουσία αυτών των τιμών ανά γραμμή |
Κωδικοποιητής μίας πρόσβασης με οριοθέτη | Διαίρεση και κωδικοποίηση κατηγορικών δεδομένων μίας πρόσβασης με χρήση οριοθέτη |
Αλλαγή τύπου στήλης | Αλλαγή του τύπου δεδομένων μιας στήλης |
Απόθεση στήλης | Διαγραφή μίας ή περισσότερων στηλών |
Επιλογή στήλης | Επιλέξτε μία ή περισσότερες στήλες για διατήρηση και διαγράψτε τις υπόλοιπες |
Μετονομασία στήλης | Μετονομασία στήλης |
Αποθέστε τις τιμές που λείπουν | Κατάργηση γραμμών με τιμές που λείπουν |
Κατάργηση διπλότυπων γραμμών | Κατάργηση όλων των γραμμών που έχουν διπλότυπες τιμές σε μία ή περισσότερες στήλες |
Συμπληρώστε τις τιμές που λείπουν | Αντικατάσταση κελιών με τιμές που λείπουν με μια νέα τιμή |
Εύρεση και αντικατάσταση | Αντικατάσταση κελιών με μοτίβο ακριβούς αντιστοίχισης |
Ομαδοποίηση κατά στήλη και συγκεντρωτική τιμή | Ομαδοποίηση κατά τιμές στήλης και συγκεντρωτικά αποτελέσματα |
Κενό διάστημα λωρίδας | Κατάργηση κενών διαστημάτων από την αρχή και το τέλος του κειμένου |
Διαίρεση κειμένου | Διαίρεση μιας στήλης σε πολλές στήλες με βάση έναν οριοθέτη που ορίζεται από τον χρήστη |
Μετατροπή κειμένου σε πεζά | Μετατροπή κειμένου σε πεζά |
Μετατροπή κειμένου σε κεφαλαία | Μετατροπή κειμένου σε ΚΕΦΑΛΑΊΑ |
Ελάχιστη/μέγιστη κλίμακα τιμών | Αλλαγή κλίμακας μιας αριθμητικής στήλης μεταξύ μιας ελάχιστης και μέγιστης τιμής |
Γέμισμα flash | Αυτόματη δημιουργία νέας στήλης βάσει παραδειγμάτων που προέρχονται από μια υπάρχουσα στήλη |
Τροποποίηση της οθόνης σας
Ανά πάσα στιγμή, μπορείτε να προσαρμόσετε τη διασύνδεση με την καρτέλα "Προβολές" στη γραμμή εργαλείων που βρίσκεται πάνω από το εμφανιζόμενο πλέγμα data Wrangler. Αυτό μπορεί να αποκρύψει ή να εμφανίσει διαφορετικά τμήματα παραθύρου με βάση τις προτιμήσεις σας και το μέγεθος της οθόνης, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Αποθήκευση και εξαγωγή κώδικα
Η γραμμή εργαλείων πάνω από το πλέγμα εμφάνισης του Data Wrangler παρέχει επιλογές για την αποθήκευση του κώδικα που δημιουργήθηκε. Μπορείτε να αντιγράψετε τον κώδικα στο πρόχειρο ή να τον εξαγάγετε στο σημειωματάριο ως συνάρτηση. Για το Spark DataFrames, όλος ο κώδικας που δημιουργείται στο δείγμα pandas μεταφράζεται στο PySpark προτού επιστρέψει στο σημειωματάριο. Πριν κλείσει το Data Wrangler, το εργαλείο εμφανίζει μια προεπισκόπηση του μεταφρασμένου κώδικα PySpark και παρέχει μια επιλογή για την εξαγωγή και του ενδιάμεσου κώδικα pandas.
Φιλοδώρημα
Το Data Wrangler δημιουργεί κώδικα που εφαρμόζεται μόνο όταν εκτελείτε με μη αυτόματο τρόπο το νέο κελί και δεν αντικαθιστά το αρχικό DataFrame, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Ο κώδικας μετατρέπεται σε PySpark, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Στη συνέχεια, μπορείτε να εκτελέσετε αυτόν τον εξαγόμενο κώδικα, όπως φαίνεται σε αυτό το στιγμιότυπο οθόνης:
Σχετικό περιεχόμενο
- Για μια επισκόπηση του Data Wrangler, επισκεφθείτε αυτό το συνοδευτικό άρθρο
- Για να δοκιμάσετε το Data Wrangler στο Visual Studio Code, μεταβείτε στην περιοχή Data Wrangler στο VS Code
- Χάσαμε κάποια δυνατότητα που χρειάζεστε; Ενημερώστε μας! Προτείνετε το στο φόρουμ Ιδεών Fabric