Εκπαιδευτική ενότητα 2: Μετασχηματισμός δεδομένων με μια ροή δεδομένων στο Data Factory
Αυτή η εκπαιδευτική ενότητα διαρκεί περίπου 25 λεπτά για να δημιουργήσετε μια ροή δεδομένων, να εφαρμόσετε μετασχηματισμούς και να μετακινήσετε τα ανεπεξέργαστα δεδομένα από τον χάλκινο πίνακα σε έναν πίνακα Gold Lakehouse.
Με τα ανεπεξέργαστα δεδομένα φορτωμένα στον πίνακα Bronze Lakehouse από την τελευταία εκπαιδευτική ενότητα, μπορείτε πλέον να προετοιμάσετε αυτά τα δεδομένα και να τα εμπλουτίσετε συνδυάζοντας τα με έναν άλλο πίνακα που περιέχει εκπτώσεις για κάθε προμηθευτή και τις μετακινήσεις τους κατά τη διάρκεια μιας συγκεκριμένης ημέρας. Αυτός ο τελικός πίνακας Gold Lakehouse είναι φορτωμένος και έτοιμος για κατανάλωση.
Τα βήματα υψηλού επιπέδου στη ροή δεδομένων είναι τα εξής:
- Λάβετε ανεπεξέργαστα δεδομένα από τον πίνακα Lakehouse που δημιουργήθηκε από τη δραστηριότητα Αντιγραφή στο εκπαιδευτική ενότητα 1: Δημιουργία διοχέτευσης με το Data Factory.
- Μετασχηματίστε τα δεδομένα που έχουν εισαχθεί από τον πίνακα Lakehouse.
- Συνδεθείτε σε ένα αρχείο CSV που περιέχει δεδομένα εκπτώσεων.
- Μετασχηματίστε τα δεδομένα εκπτώσεων.
- Συνδυασμός δεδομένων ταξιδιών και εκπτώσεων.
- Φορτώστε το ερώτημα εξόδου στον πίνακα Gold Lakehouse.
Λήψη δεδομένων από έναν πίνακα Lakehouse
Από την πλαϊνή γραμμή, επιλέξτε τον χώρο εργασίας σας, επιλέξτε Νέο στοιχείοκαι, στη συνέχεια, το Dataflow Gen2 για να δημιουργήσετε ένα νέο Dataflow Gen2.
Από το μενού νέας ροής δεδομένων, επιλέξτε λήψη δεδομένωνκαι, στη συνέχεια, Περισσότερα....
Αναζητήστε και επιλέξτε τη σύνδεση
Lakehouse. Εμφανίζεται το παράθυρο διαλόγου Σύνδεση σε προέλευση δεδομένων
και δημιουργείται αυτόματα μια νέα σύνδεση για εσάς με βάση τον χρήστη που έχει εισέλθει τη συγκεκριμένη στιγμή. Επιλέξτε Επόμενο. Εμφανίζεται το παράθυρο διαλόγου Επιλογή δεδομένων. Χρησιμοποιήστε το παράθυρο περιήγησης για να βρείτε το Lakehouse που δημιουργήσατε για τον προορισμό στην προηγούμενη εκπαιδευτική ενότητα και επιλέξτε τον Tutorial_Lakehouse πίνακα δεδομένων.
(Προαιρετικό) Όταν ο καμβάς σας συμπληρωθεί με τα δεδομένα, μπορείτε να ορίσετε προφίλ στήλης πληροφορίες, καθώς αυτό είναι χρήσιμο για τη δημιουργία προφίλ δεδομένων. Μπορείτε να εφαρμόσετε τον σωστό μετασχηματισμό και να στοχεύσετε τις σωστές τιμές δεδομένων με βάση αυτόν.
Για να το κάνετε αυτό, επιλέξτε
Επιλογές από το τμήμα παραθύρου της κορδέλας, στη συνέχεια, επιλέξτε τις τρεις πρώτες επιλογές στην περιοχήΠροφίλ στήληςκαι, στη συνέχεια, επιλέξτε OK .
Μετασχηματισμός των δεδομένων που εισάγονται από το Lakehouse
Επιλέξτε το εικονίδιο τύπου δεδομένων στην κεφαλίδα στήλης της δεύτερης στήλης,
IpepPickupDatetime, για να εμφανίσετε ένα αναπτυσσόμενο μενού και επιλέξτε τον τύπο δεδομένων από το μενού για να μετατρέψετε τη στήλη από τη ημερομηνίας/ώρας στον τύπο Ημερομηνία .(Προαιρετικό) Στην καρτέλα Αρχικήτης κορδέλας, επιλέξτε Επιλογή στηλών από την ομάδα Διαχείριση στηλών του . (Προαιρετικό) Στο παράθυρο διαλόγου Επιλογή στηλών, καταργήστε την επιλογή ορισμένων στηλών που παρατίθενται εδώ και, στη συνέχεια, επιλέξτε OK .- lpepDropoffDatetime
- puLocationId
- doLocationId
- γεωγραφικό πλάτος παραλαβής
- dropoffLongitude
- rateCodeID
Επιλέξτε το αναπτυσσόμενο μενού φίλτρου και ταξινόμησης της στήλης AndFwdFlag. (Εάν δείτε μια προειδοποίηση Λίστα ενδέχεται να είναι ελλιπής, επιλέξτε Φόρτωση περισσότερων για να δείτε όλα τα δεδομένα.)
Επιλέξτε "Y" για να εμφανίσετε μόνο τις γραμμές όπου έχει εφαρμοστεί έκπτωση και, στη συνέχεια, επιλέξτε OK.
Επιλέξτε το αναπτυσσόμενο μενού ταξινόμησης και φίλτρου
IpepPickupDatetime και, στη συνέχεια, επιλέξτε φίλτρα ημερομηνίας και επιλέξτε το φίλτρομεταξύ... που παρέχεται για τους τύπους Ημερομηνία και Ημερομηνία/Ώρα. Στο παράθυρο διαλόγου Φίλτρο γραμμών
, επιλέξτε ημερομηνίες μεταξύ της 1ης Ιανουαρίου 2015 και της 31ης Ιανουαρίου 2015 και, στη συνέχεια, επιλέξτε OK .
Σύνδεση σε ένα αρχείο CSV που περιέχει δεδομένα έκπτωσης
Τώρα, με τα δεδομένα από τις διαδρομές σε ισχύ, θέλουμε να φορτώσουμε τα δεδομένα που περιέχουν τις αντίστοιχες εκπτώσεις για κάθε ημέρα και vendorID και να προετοιμάσουμε τα δεδομένα πριν από τον συνδυασμό τους με τα δεδομένα ταξιδιών.
Από την καρτέλα Αρχική
στο μενού πρόγραμμα επεξεργασίας ροής δεδομένων, επιλέξτε το στοιχείο Λήψη δεδομένων και, στη συνέχεια, επιλέξτεΚείμενο/CSV . Στο παράθυρο διαλόγου Σύνδεση σε προέλευση δεδομένων
, δώστε τις ακόλουθες λεπτομέρειες: -
διαδρομή αρχείου ή -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
διεύθυνσης URL - είδος ελέγχου ταυτότητας - Ανώνυμο
Στη συνέχεια, επιλέξτε Επόμενο.
-
διαδρομή αρχείου ή -
Στο παράθυρο διαλόγου προεπισκόπησης δεδομένων αρχείου
, επιλέξτε Δημιουργία .
Μετασχηματισμός των δεδομένων έκπτωσης
Εξετάζοντας τα δεδομένα, βλέπουμε ότι οι κεφαλίδες φαίνεται να βρίσκονται στην πρώτη γραμμή. Προβιβάστε τις σε κεφαλίδες, επιλέγοντας το μενού περιβάλλοντος του πίνακα στην επάνω αριστερή γωνία της περιοχής πλέγματος προεπισκόπησης για να επιλέξετε Χρήση της πρώτης γραμμής ως κεφαλίδων.
Σημείωση
Αφού προωθήσετε τις κεφαλίδες, μπορείτε να δείτε ένα νέο βήμα να προστίθεται στο Εφαρμοσμένα βήματα τμήμα παραθύρου στο επάνω μέρος του προγράμματος επεξεργασίας ροής δεδομένων στους τύπους δεδομένων των στηλών σας.
Κάντε δεξί κλικ στη στήλη
VendorID και από το μενού περιβάλλοντος που εμφανίζεται, ενεργοποιήστε την επιλογή Κατάργηση συγκέντρωσης άλλων στηλών . Αυτό σας επιτρέπει να μετασχηματίζετε στήλες σε ζεύγη χαρακτηριστικού-τιμής, όπου οι στήλες γίνονται γραμμές.Με τον πίνακα χωρίς συγκέντρωση, μετονομάστε τις στήλες Attribute και Value, κάνοντας διπλό κλικ σε αυτές και αλλάζοντας Attribute σε Date και Value σε Discount.
Αλλάξτε τον τύπο δεδομένων της στήλης Date, επιλέγοντας το μενού τύπου δεδομένων στα αριστερά του ονόματος στήλης και επιλέγοντας Date.
Επιλέξτε τη στήλη Discount και, στη συνέχεια, επιλέξτε την καρτέλα Μετασχηματισμός στο μενού. Επιλέξτε στήλη Αριθμόςκαι, στη συνέχεια, επιλέξτε Τυπικούς αριθμητικούς μετασχηματισμούς από το υπομενού και επιλέξτε Διαίρεση.
Στο παράθυρο Διαίρεση, πληκτρολογήστε την τιμή 100.
Συνδυασμός δεδομένων ταξιδιών και εκπτώσεων
Το επόμενο βήμα είναι να συνδυάσετε και τους δύο πίνακες σε έναν ενιαίο πίνακα με την έκπτωση που θα πρέπει να εφαρμοστεί στη διαδρομή και το προσαρμοσμένο σύνολο.
Πρώτα, αλλάξτε την προβολή διαγράμματος κουμπί, ώστε να μπορείτε να δείτε και τα δύο ερωτήματά σας.
Επιλέξτε το ερώτημα
nyc_taxi και, στην καρτέλα Αρχική, επιλέξτε το μενού Συνδυασμός και επιλέξτεσυγχώνευση ερωτημάτων και, στη συνέχεια,συγχώνευση ερωτημάτων ως νέα .Στο παράθυρο διαλόγου συγχώνευσης
, επιλέξτε Generated-NYC-Taxi-Green-Discounts από τονδεξιό πίνακα για συγχώνευση αναπτυσσόμενο μενού και, στη συνέχεια, επιλέξτε το εικονίδιο "ανοιχτός βολβός" στην επάνω δεξιά γωνία του παραθύρου διαλόγου για να δείτε την προτεινόμενη αντιστοίχιση στηλών μεταξύ των δύο πινάκων.Επιλέξτε καθεμία από τις δύο προτεινόμενες αντιστοιχίσεις στηλών, μία κάθε φορά, αντιστοιχίζουν το VendorID και τις στήλες ημερομηνιών και από τους δύο πίνακες. Όταν προστίθενται και οι δύο αντιστοιχίσεις, οι κεφαλίδες των αντιστοιχιζόμενων στηλών επισημαίνονται σε κάθε πίνακα.
Εμφανίζεται ένα μήνυμα που σας ζητά να επιτρέψετε τον συνδυασμό δεδομένων από πολλές προελεύσεις δεδομένων για να προβάλετε τα αποτελέσματα. Επιλέξτε
OK στο παράθυρο διαλόγου Συγχώνευση . Στην περιοχή του πίνακα, θα δείτε αρχικά μια προειδοποίηση ότι "Η αξιολόγηση ακυρώθηκε επειδή ο συνδυασμός δεδομένων από πολλές προελεύσεις μπορεί να αποκαλύψει δεδομένα από μια προέλευση σε μια άλλη. Επιλέξτε "Συνέχεια", εάν η πιθανότητα αποκάλυψης δεδομένων είναι εντάξει." Επιλέξτε Συνέχεια για να εμφανίσετε τα συνδυασμένα δεδομένα.
Παρατηρήστε πώς δημιουργήθηκε ένα νέο ερώτημα στην προβολή διαγράμματος που εμφανίζει τη σχέση του νέου ερωτήματος συγχώνευσης με τα δύο ερωτήματα που δημιουργήσατε προηγουμένως. Κοιτάζοντας το τμήμα παραθύρου πίνακα του προγράμματος επεξεργασίας, κάντε κύλιση στα δεξιά της λίστας Στήλη ερωτημάτων συγχώνευσης για να δείτε μια νέα στήλη με τιμές πίνακα. Αυτή είναι η στήλη "Generated NYC Taxi-Green-Discounts" και ο τύπος της είναι [Table]. Στην κεφαλίδα στήλης υπάρχει ένα εικονίδιο με δύο βέλη που πηγαίνουν προς αντίθετες κατευθύνσεις, το οποίο σας επιτρέπει να επιλέξετε στήλες από τον πίνακα. Καταργήστε την επιλογή όλων των στηλών εκτός από Discount και, στη συνέχεια, επιλέξτε OK.
Με την τιμή έκπτωσης τώρα στο επίπεδο γραμμής, μπορούμε να δημιουργήσουμε μια νέα στήλη για να υπολογίσουμε το συνολικό ποσό μετά την έκπτωση. Για να το κάνετε αυτό, επιλέξτε την καρτέλα
Προσθήκη στήλης στο επάνω μέρος του προγράμματος επεξεργασίας και επιλέξτε Προσαρμοσμένη στήλη από την ομάδα Γενικά .Στο παράθυρο διαλόγου προσαρμοσμένης στήλης
, μπορείτε να χρησιμοποιήσετε τη γλώσσα τύπων Power Query (γνωστή και ως M) για να καθορίσετε τον τρόπο υπολογισμού της νέας στήλης. ΕισαγάγετεtotalAfterDiscount για τοΌνομα νέας στήλης, επιλέξτε Νόμισμα για τοτύπος δεδομένων και εισαγάγετε την ακόλουθη παράσταση M για τον τύπο Προσαρμοσμένη στήλη :εάν το [totalAmount] > 0 τότε [totalAmount] * ( 1 -[Discount] ) else [totalAmount]
Στη συνέχεια, επιλέξτε OK.
Επιλέξτε τη στήλη TotalAfterDiscount στήλη και, στη συνέχεια, επιλέξτε την καρτέλα Μετασχηματισμός στο επάνω μέρος του παραθύρου του προγράμματος επεξεργασίας. Στην ομάδα στήλη Αριθμός
, επιλέξτε την αναπτυσσόμενη Στρογγυλοποίηση και, στη συνέχεια, επιλέξτε Στρογγυλοποίηση... .Στο παράθυρο διαλόγου Στρογγυλοποίηση, πληκτρολογήστε 2 για τον αριθμό των δεκαδικών ψηφίων και, στη συνέχεια, επιλέξτε OK.
Αλλάξτε τον τύπο δεδομένων του IpepPickupDatetime από Ημερομηνία σε Ημερομηνία/Ώρα.
Τέλος, αναπτύξτε τις ρυθμίσεις Query τμήμα παραθύρου από τη δεξιά πλευρά του προγράμματος επεξεργασίας, εάν δεν είναι ήδη αναπτυγμένο και μετονομάστε το ερώτημα από Συγχώνευση στο Output.
Φόρτωση του ερωτήματος εξόδου σε έναν πίνακα στο Lakehouse
Με το ερώτημα εξόδου τώρα πλήρως προετοιμασμένο και με τα δεδομένα έτοιμα για έξοδο, μπορούμε να ορίσουμε τον προορισμό εξόδου για το ερώτημα.
Επιλέξτε το ερώτημα Output συγχώνευση που δημιουργήθηκε προηγουμένως. Στη συνέχεια, επιλέξτε την καρτέλα
Αρχική στο πρόγραμμα επεξεργασίας και, , προσθέστε προορισμού δεδομένων από την ομαδοποίησηΕρωτήματος, για να επιλέξετε έναν προορισμό Lakehouse. Στο παράθυρο διαλόγου Σύνδεση σε προορισμό δεδομένων
, η σύνδεσή σας θα πρέπει να είναι ήδη επιλεγμένη. Επιλέξτε Επόμενο για να συνεχίσετε. Στο παράθυρο διαλόγου επιλογή προορισμού
, μεταβείτε στο Lakehouse όπου θέλετε να φορτώσετε τα δεδομένα και ονομάστε τον νέο πίνακα nyc_taxi_with_discounts και, στη συνέχεια, επιλέξτεΕπόμενο ξανά.Στο παράθυρο διαλόγου επιλογή ρυθμίσεων προορισμού
, αφήστε το προεπιλεγμένο Αντικατάσταση μέθοδο ενημέρωσης, ελέγξτε ξανά ότι οι στήλες σας έχουν αντιστοιχιστεί σωστά και επιλέξτεΑποθήκευση ρυθμίσεων .Στο παράθυρο του κύριου προγράμματος επεξεργασίας, επιβεβαιώστε ότι βλέπετε τον προορισμό εξόδου σας στο τμήμα παραθύρου Ρυθμίσεις ερωτήματος
για τον πίνακα Έξοδος και, στη συνέχεια, επιλέξτε Δημοσίευση .Σημαντικός
Όταν δημιουργείται το πρώτο Dataflow Gen2 σε έναν χώρο εργασίας, τα στοιχεία Lakehouse και Warehouse εκχωρούνται μαζί με τα σχετικά τελικά μοντέλα ανάλυσης SQL και σημασιολογικά μοντέλα. Αυτά τα στοιχεία είναι κοινόχρηστα από όλες τις ροές δεδομένων στον χώρο εργασίας και απαιτούνται για τη λειτουργία του Dataflow Gen2, δεν πρέπει να διαγραφούν και δεν προορίζονται να χρησιμοποιηθούν απευθείας από τους χρήστες. Τα στοιχεία είναι μια λεπτομέρεια υλοποίησης του Dataflow Gen2. Τα στοιχεία δεν είναι ορατά στον χώρο εργασίας, αλλά μπορεί να είναι προσβάσιμα σε άλλες εμπειρίες όπως οι εμπειρίες Notebook, SQL-endpoint, Lakehouse και Warehouse. Μπορείτε να αναγνωρίσετε τα στοιχεία από το πρόθεμα τους στο όνομα. Το πρόθεμα των στοιχείων είναι "Ροές δεδομένωνStaging".
(Προαιρετικό) Στη σελίδα του χώρου εργασίας, μπορείτε να μετονομάσετε τη ροή δεδομένων σας επιλέγοντας τα αποσιωπητικά στα δεξιά του ονόματος ροής δεδομένων που εμφανίζεται αφού επιλέξετε τη γραμμή και επιλέγοντας Ιδιότητες.
Επιλέξτε το εικονίδιο ανανέωσης για τη ροή δεδομένων αφού επιλέξετε τη γραμμή της και, όταν ολοκληρωθεί, θα πρέπει να δείτε ότι ο νέος πίνακας Lakehouse σας δημιουργήθηκε όπως έχει ρυθμιστεί στις ρυθμίσεις προορισμού δεδομένων του
. Ελέγξτε το Lakehouse για να δείτε τον νέο πίνακα που φορτώθηκε εκεί.
Σχετικό περιεχόμενο
Σε αυτή τη δεύτερη εκπαιδευτική ενότητα για την ολοκληρωμένη εκμάθηση για την πρώτη σας ενοποίηση δεδομένων χρησιμοποιώντας το Data Factory στο Microsoft Fabric, μάθατε πώς να κάνετε τα εξής:
- Δημιουργήστε μια νέα ροή δεδομένων Gen2.
- Εισαγωγή και μετασχηματισμός δείγματος δεδομένων.
- Εισαγωγή και μετασχηματισμός δεδομένων κειμένου/CSV.
- Συγχωνεύστε δεδομένα και από τις δύο προελεύσεις δεδομένων σε ένα νέο ερώτημα.
- Μετασχηματισμός δεδομένων και δημιουργία νέων στηλών σε ένα ερώτημα.
- Ρυθμίστε τις παραμέτρους μιας προέλευσης προορισμού εξόδου για ένα ερώτημα.
- Μετονομάστε και ανανεώστε τη νέα ροή δεδομένων σας.
Συνεχίστε στην επόμενη ενότητα τώρα για να ενσωματώσετε τη διοχέτευση δεδομένων σας.