Οδηγός αποφάσεων Microsoft Fabric: αντιγραφή δραστηριότητας, ροής δεδομένων ή Spark
Χρησιμοποιήστε αυτόν τον οδηγό αναφοράς και τα παραδείγματα σεναρίων για να σας βοηθήσουν να αποφασίσετε εάν χρειάζεστε μια δραστηριότητα αντιγραφής, μια ροή δεδομένων ή Spark για τους φόρτους εργασίας σας Microsoft Fabric.
Αντιγραφή ιδιοτήτων δραστηριότητας, ροής δεδομένων και Spark
Δραστηριότητα αντιγραφής διοχέτευσης | Ροή δεδομένων Gen 2 | Σπινθήρα | |
---|---|---|---|
Υπόθεση χρήσης | Μετεγκατάσταση λίμνης δεδομένων και αποθήκης δεδομένων, πρόσληψη δεδομένων, ελαφρύς μετασχηματισμός |
Πρόσληψη δεδομένων, μετασχηματισμός δεδομένων, διευθέτηση δεδομένων, δημιουργία προφίλ δεδομένων |
Πρόσληψη δεδομένων, μετασχηματισμός δεδομένων, επεξεργασία δεδομένων, δημιουργία προφίλ δεδομένων |
Κύρια προσωπικότητα προγραμματιστή | Μηχανικός δεδομένων, ενοποίηση δεδομένων |
Μηχανικός δεδομένων, ενοποίηση δεδομένων, επιχειρηματικός αναλυτής |
Μηχανικός δεδομένων, επιστήμονας δεδομένων, προγραμματιστής δεδομένων |
Σύνολο κύριων δεξιοτήτων προγραμματιστών | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Κώδικας που συντάχθηκε | Χωρίς κωδικό, κώδικας χαμηλού επιπέδου |
Χωρίς κωδικό, κώδικας χαμηλού επιπέδου |
Κωδικός |
Όγκος δεδομένων | Από χαμηλή προς υψηλή | Από χαμηλή προς υψηλή | Από χαμηλή προς υψηλή |
Διασύνδεση ανάπτυξης | Οδηγός Καμβά |
Power query | Σημειωματάριο Ορισμός εργασίας Spark |
Πηγές | 30+ συνδέσεις | 150+ συνδέσεις | Εκατοντάδες βιβλιοθήκες Spark |
Προορισμούς | 18+ συνδέσεις | Lakehouse, Βάση δεδομένων SQL Azure, Azure Data explorer, Azure Synapse analytics |
Εκατοντάδες βιβλιοθήκες Spark |
Πολυπλοκότητα μετασχηματισμού | Χαμηλό: ελαφρύς - μετατροπή τύπου, αντιστοίχιση στηλών, αρχεία συγχώνευσης/διαίρεσης, μετατροπή ιεραρχίας σε επίπεδη δομή |
Από χαμηλή προς υψηλή: 300+ συναρτήσεις μετασχηματισμού |
Από χαμηλή προς υψηλή: υποστήριξη για εγγενείς βιβλιοθήκες Spark και ανοιχτού κώδικα |
Εξετάστε τα παρακάτω τρία σενάρια για βοήθεια σχετικά με την επιλογή του τρόπου εργασίας με τα δεδομένα σας στο Fabric.
Σενάριο1
Ο Leo, μηχανικός δεδομένων, χρειάζεται να αποκτήσει έναν μεγάλο όγκο δεδομένων από εξωτερικά συστήματα, τόσο εσωτερικής εγκατάστασης όσο και cloud. Αυτά τα εξωτερικά συστήματα περιλαμβάνουν βάσεις δεδομένων, συστήματα αρχείων και API. Ο Leo δεν θέλει να γράφει και να διατηρεί κώδικα για κάθε λειτουργία σύνδεσης ή μετακίνησης δεδομένων. Θέλει να ακολουθήσει τις βέλτιστες πρακτικές των ολυμπιονίκων, με χάλκινο, ασήμι και χρυσό. Ο Leo δεν διαθέτει εμπειρία με το Spark, επομένως προτιμά το περιβάλλον εργασίας χρήστη με μεταφορά και απόθεση όσο το δυνατόν περισσότερο, με ελάχιστη κωδικοποίηση. Επίσης, θέλει να επεξεργαστεί τα δεδομένα βάσει χρονοδιαγράμματος.
Το πρώτο βήμα είναι να λάβετε τα ανεπεξέργαστα δεδομένα στη λίμνη χάλκινου επιπέδου από πόρους δεδομένων Azure και διάφορες προελεύσεις τρίτων (όπως Snowflake Web, REST, AWS S3, GCS κ.λπ.). Θέλει ένα ενοποιημένο lakehouse, έτσι ώστε όλα τα δεδομένα από διάφορα LOB, εσωτερικής εγκατάστασης και προελεύσεις cloud να βρίσκονται σε ένα μόνο σημείο. Ο Leo εξετάζει τις επιλογές και επιλέγει τη δραστηριότητα αντιγραφής διοχέτευσης ως την κατάλληλη επιλογή για το ακατέργαστο δυαδικό αντίγραφό του. Αυτό το μοτίβο ισχύει τόσο για την ιστορική όσο και για την επαυξητική ανανέωση δεδομένων. Με τη δραστηριότητα αντιγραφής, η Leo μπορεί να φορτώσει δεδομένα gold σε μια αποθήκη δεδομένων χωρίς κώδικα, εάν προκύψει ανάγκη και οι διοχετεύσεις παρέχουν πρόσληψη δεδομένων υψηλής κλίμακας που μπορεί να μετακινεί δεδομένα κλίμακας petabyte. Η δραστηριότητα αντιγραφής είναι η καλύτερη επιλογή χαμηλού κώδικα και χωρίς κώδικα για τη μετακίνηση petabyte δεδομένων σε lakehouses και αποθήκες από ποικιλίες προελεύσεων, είτε ad-hoc είτε μέσω χρονοδιαγράμματος.
Σενάριο2
Η Αλεξία είναι μηχανικός δεδομένων με βαθιά γνώση των πολλαπλών απαιτήσεων αναφοράς ανάλυσης LOB. Μια ομάδα upstream έχει υλοποιήσει με επιτυχία μια λύση για τη μετεγκατάσταση πολλών ιστορικών και επαυξητικών δεδομένων του LOB σε ένα κοινό lakehouse. Η Αλεξία έχει επιφορτιστεί με την εκκαθάριση των δεδομένων, την εφαρμογή επιχειρηματικής λογικής και τη φόρτωσή τους σε πολλούς προορισμούς (όπως τη Βάση δεδομένων SQL Azure, το ADX και ένα lakehouse) για την προετοιμασία των αντίστοιχων ομάδων αναφοράς τους.
Η Αλεξία είναι έμπειρος χρήστης του Power Query και ο όγκος δεδομένων βρίσκεται στη χαμηλή έως μεσαία περιοχή για να επιτύχει τις επιθυμητές επιδόσεις. Οι ροές δεδομένων παρέχουν διασυνδέσεις χωρίς κώδικα ή με λίγο κώδικα για την πρόσληψη δεδομένων από εκατοντάδες προελεύσεις δεδομένων. Με τις ροές δεδομένων, μπορείτε να μετασχηματίζετε δεδομένα χρησιμοποιώντας 300+ επιλογές μετασχηματισμού δεδομένων και να γράφετε τα αποτελέσματα σε πολλούς προορισμούς με ένα εύχρηστο, ιδιαίτερα οπτικό περιβάλλον εργασίας χρήστη. Η Αλεξία εξετάζει τις επιλογές και αποφασίζει ότι είναι λογικό να χρησιμοποιήσει το Dataflow Gen 2 ως την προτιμώμενη επιλογή μετασχηματισμού της.
Σενάριο3
Ο Adam είναι μηχανικός δεδομένων που εργάζεται για μια μεγάλη εταιρεία λιανικής πώλησης που χρησιμοποιεί ένα lakehouse για την αποθήκευση και ανάλυση των δεδομένων των πελατών του. Ως μέρος της δουλειάς του, ο Adam είναι υπεύθυνος για την κατασκευή και συντήρηση των διοχετεύσεων δεδομένων που εξάγουν, μετασχηματίζουν και φορτώνουν δεδομένα στο lakehouse. Μία από τις επιχειρηματικές απαιτήσεις της εταιρείας είναι η εκτέλεση αναλύσεων ελέγχου πελατών για να λάβουν πληροφορίες σχετικά με τις εμπειρίες των πελατών τους και να βελτιώσουν τις υπηρεσίες τους.
Ο Adam αποφασίζει ότι η καλύτερη επιλογή είναι να χρησιμοποιήσετε το Spark για να δημιουργήσετε τη λογική εξαγωγής και μετασχηματισμού. Το Spark παρέχει μια κατανεμημένη υπολογιστική πλατφόρμα που μπορεί να επεξεργάζεται μεγάλους όγκους δεδομένων παράλληλα. Γράφει μια εφαρμογή Spark χρησιμοποιώντας Python ή Scala, η οποία διαβάζει δομημένα, ημι-δομημένα και μη δομημένα δεδομένα από το OneLake για κριτικές πελατών και σχόλια. Η εφαρμογή καθαρίζει, μετασχηματίζει και γράφει δεδομένα σε πίνακες Delta στο lakehouse. Στη συνέχεια, τα δεδομένα είναι έτοιμα για χρήση για μεταγενέστερη ανάλυση.