Σενάριο από άκρο σε άκρο στο Lakehouse: επισκόπηση και αρχιτεκτονική
Το Microsoft Fabric είναι μια λύση ανάλυσης όλα σε ένα για επιχειρήσεις που καλύπτει τα πάντα, από τη μετακίνηση δεδομένων έως την επιστήμη των δεδομένων, την ανάλυση σε πραγματικό χρόνο και την επιχειρηματική ευφυΐα. Προσφέρει μια ολοκληρωμένη οικογένεια υπηρεσιών, συμπεριλαμβανομένης της λίμνης δεδομένων, της μηχανικής δεδομένων και της ενοποίησης δεδομένων, όλα σε ένα σημείο. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Τι είναι το Microsoft Fabric;
Αυτό το εκπαιδευτικό βοήθημα σάς καθοδηγεί σε ένα σενάριο από την απόκτηση δεδομένων έως την κατανάλωση δεδομένων. Σας βοηθά να δημιουργήσετε μια βασική κατανόηση του Fabric, συμπεριλαμβανομένων των διαφορετικών εμπειριών και του τρόπου ενσωμάτωσής τους, καθώς και των επαγγελματικών εμπειριών προγραμματιστών που παρέχονται με την εργασία σε αυτή την πλατφόρμα. Αυτό το εκπαιδευτικό βοήθημα δεν προορίζεται να είναι μια αρχιτεκτονική αναφοράς, μια εξαντλητική λίστα δυνατοτήτων και λειτουργιών ή μια πρόταση για συγκεκριμένες βέλτιστες πρακτικές.
Σενάριο από άκρο σε άκρο στο Lakehouse
Παραδοσιακά, οι οργανισμοί δημιουργούν σύγχρονες αποθήκες δεδομένων για τις ανάγκες τους ανάλυσης συναλλαγών και δομημένων δεδομένων. Και λίμνες δεδομένων για μεγάλες ανάγκες ανάλυσης δεδομένων (ημι-δομημένες). Αυτά τα δύο συστήματα έτρεχαν παράλληλα, δημιουργώντας σιλό, διπλότυπα δεδομένων και αυξημένο συνολικό κόστος κυριότητας.
Το Fabric με την ενοποίηση του χώρου αποθήκευσης δεδομένων και την τυποποίηση σε μορφή Delta Lake σάς επιτρέπει να εξαλείψετε τα σιλό, να καταργήσετε την αντιγραφή δεδομένων και να μειώσετε δραστικά το συνολικό κόστος ιδιοκτησίας.
Με την ευελιξία που προσφέρει το Fabric, μπορείτε να εφαρμόσετε αρχιτεκτονικές lakehouse ή αποθήκης δεδομένων ή να τις συνδυάσετε για να αξιοποιήσετε στο έπακρο την απλή υλοποίηση. Σε αυτή την εκμάθηση, θα πάρετε ένα παράδειγμα ενός οργανισμού λιανικής πώλησης και θα δημιουργήσετε το lakehouse του από την αρχή μέχρι το τέλος. Χρησιμοποιεί την αρχιτεκτονική μεταλλίων όπου το χάλκινο στρώμα έχει τα ανεπεξέργαστα δεδομένα, το ασημένιο στρώμα έχει τα επικυρωμένα και deduplicated δεδομένα και το χρυσό στρώμα έχει εξαιρετικά βελτιστοποιημένα δεδομένα. Μπορείτε να χρησιμοποιήσετε την ίδια προσέγγιση για να υλοποιήσετε ένα lakehouse για οποιονδήποτε οργανισμό από οποιονδήποτε κλάδο.
Αυτό το εκπαιδευτικό βοήθημα εξηγεί πώς ένας προγραμματιστής στην φανταστική εταιρεία Εισαγωγών Wide World από τον τομέα λιανικής πώλησης ολοκληρώνει τα ακόλουθα βήματα:
Εισέλθετε στον λογαριασμό σας Power BI και εγγραφείτε για τη δωρεάν δοκιμαστική έκδοση του Microsoft Fabric. Εάν δεν έχετε μια άδεια χρήσης Power BI, εγγραφείτε για μια δωρεάν άδεια χρήσης Power BI και, στη συνέχεια, μπορείτε να ξεκινήσετε τη δοκιμαστική έκδοση Fabric.
Δημιουργήστε και υλοποιήστε ένα από άκρο σε άκρο lakehouse για τον οργανισμό σας:
- Δημιουργήστε έναν χώρο εργασίας Fabric.
- Δημιουργήστε ένα lakehouse.
- Πρόσληψη δεδομένων, μετασχηματισμός δεδομένων και φόρτωσή τους στο lakehouse. Μπορείτε επίσης να εξερευνήσετε το OneLake, ένα αντίγραφο των δεδομένων σας σε λειτουργία lakehouse και λειτουργία τελικού σημείου ανάλυσης SQL.
- Συνδεθείτε στη λίμνη σας χρησιμοποιώντας το τελικό σημείο ανάλυσης SQL και δημιουργήστε μια αναφορά Power BI χρησιμοποιώντας το DirectLake για να αναλύσετε δεδομένα πωλήσεων σε διαφορετικές διαστάσεις.
- Προαιρετικά, μπορείτε να οργανώσετε και να προγραμματίσετε την πρόσληψη δεδομένων και τη ροή μετασχηματισμού με μια διοχέτευση.
Κάντε εκκαθάριση των πόρων , διαγράφοντας τον χώρο εργασίας και άλλα στοιχεία.
Αρχιτεκτονική
Η παρακάτω εικόνα δείχνει την ολοκληρωμένη αρχιτεκτονική της λίμνης. Τα στοιχεία που εμπλέκονται περιγράφονται στην παρακάτω λίστα.
Προελεύσεις δεδομένων: Το Fabric διευκολύνει και επιταχύνει τη σύνδεση στις Υπηρεσίες δεδομένων Azure, καθώς και σε άλλες πλατφόρμες που βασίζονται στο cloud και σε προελεύσεις δεδομένων εσωτερικής εγκατάστασης, για βελτιωμένη πρόσληψη δεδομένων.
Πρόσληψη δεδομένων: Μπορείτε να δημιουργήσετε γρήγορα πληροφορίες για τον οργανισμό σας χρησιμοποιώντας περισσότερες από 200 εγγενείς συνδέσεις. Αυτές οι συνδέσεις ενοποιούνται στη διοχέτευση Fabric και χρησιμοποιούν τον φιλικό προς τον χρήστη μετασχηματισμό δεδομένων μεταφοράς και απόθεσης με τη ροή δεδομένων. Επιπλέον, με τη δυνατότητα Συντόμευση στο Fabric μπορείτε να συνδεθείτε σε υπάρχοντα δεδομένα, χωρίς να χρειάζεται να τα αντιγράψετε ή να τα μετακινήσετε.
Μετασχηματισμός και αποθήκευση: Το Fabric τυποποιείται σε μορφή Delta Lake. Το οποίο σημαίνει ότι όλοι οι κινητήρες Fabric μπορούν να έχουν πρόσβαση και να χειρίζονται το ίδιο σύνολο δεδομένων που είναι αποθηκευμένο στο OneLake χωρίς αντιγραφή δεδομένων. Αυτό το σύστημα αποθήκευσης παρέχει την ευελιξία να δημιουργήσετε lakehouses χρησιμοποιώντας μια αρχιτεκτονική μεταλλίων ή ένα πλέγμα δεδομένων, ανάλογα με τις απαιτήσεις του οργανισμού σας. Μπορείτε να επιλέξετε ανάμεσα σε μια εμπειρία με λίγο ή καθόλου κώδικα για τον μετασχηματισμό δεδομένων, χρησιμοποιώντας είτε διοχετεύσεις/ροές δεδομένων είτε σημειωματάριο/Spark για μια εμπειρία πρώτης χρήσης κώδικα.
Κατανάλωση: Το Power BI μπορεί να καταναλώσει δεδομένα από το Lakehouse για αναφορές και απεικονίσεις. Κάθε Lakehouse διαθέτει ένα ενσωματωμένο τελικό σημείο TDS που ονομάζεται τελικό σημείο ανάλυσης SQL για εύκολη συνδεσιμότητα και υποβολή ερωτημάτων σε πίνακες Lakehouse από άλλα εργαλεία αναφοράς. Το τελικό σημείο ανάλυσης SQL παρέχει στους χρήστες τη λειτουργικότητα σύνδεσης SQL.
Δείγμα συνόλου δεδομένων
Αυτό το εκπαιδευτικό βοήθημα χρησιμοποιεί το δείγμα βάσης δεδομένων Εισαγωγέων Wide World (WWI), το οποίο, θα εισαγάγετε στο lakehouse στο επόμενο εκπαιδευτικό βοήθημα. Για το σενάριο lakehouse από άκρο σε άκρο, έχουμε δημιουργήσει επαρκή δεδομένα για να εξερευνήσουμε την κλίμακα και τις δυνατότητες απόδοσης της πλατφόρμας Fabric.
Οι εισαγωγείς wide world (WWI) είναι ένας εισαγωγέας και διανομέας προϊόντων καινοτομίας χονδρικής που δραστηριοποιούνται από την περιοχή του κόλπου του Σαν Φρανσίσκο. Ως χονδρέμπορος, οι πελάτες του WWI περιλαμβάνουν κυρίως εταιρείες που μεταπωλούν σε μεμονωμένους χρήστες. Το WWI πωλεί σε πελάτες λιανικής πώλησης σε όλες τις Ηνωμένες Πολιτείες, συμπεριλαμβανομένων εξειδικευμένων καταστημάτων, σούπερ μάρκετ, υπολογιστικών καταστημάτων, καταστημάτων τουριστικών αξιοθέατων και ορισμένων ατόμων. Το WWI πωλεί επίσης σε άλλους χονδρέμπορους μέσω ενός δικτύου αντιπροσώπων που προωθούν τα προϊόντα για λογαριασμό του WWI. Για να μάθετε περισσότερα σχετικά με το εταιρικό προφίλ και τη λειτουργία τους, ανατρέξτε στο θέμα Δείγματα βάσεων δεδομένων εισαγωγέων του Wide World για Microsoft SQL.
Σε γενικές γραμμές, τα δεδομένα εισάγονται από συστήματα συναλλαγών ή επιχειρησιακές εφαρμογές σε ένα lakehouse. Ωστόσο, για λόγους απλότητας σε αυτό το πρόγραμμα εκμάθησης, χρησιμοποιούμε το διαστατικό μοντέλο που παρέχεται από το WWI ως αρχική προέλευση δεδομένων. Το χρησιμοποιούμε ως προέλευση για την πρόσληψη δεδομένων σε μια λίμνη και τον μετασχηματίζουμε σε διαφορετικά στάδια (Χάλκινο, Αργυρό και Χρυσό) μιας αρχιτεκτονικής μεταλλίων.
Μοντέλο δεδομένων
Παρόλο που το διαστατικό μοντέλο WWI περιέχει πολλούς πίνακες δεδομένων, για αυτό το εκπαιδευτικό βοήθημα, χρησιμοποιούμε τον πίνακα δεδομένων Πωλήσεις και τις συσχετισμένες διαστάσεις του. Το παρακάτω παράδειγμα απεικονίζει το μοντέλο δεδομένων WWI:
Ροή δεδομένων και μετασχηματισμού
Όπως περιγράφηκε παραπάνω, χρησιμοποιούμε το δείγμα δεδομένων από το δείγμα εισαγωγέων Wide World (WWI) για να κατασκευάσουμε αυτό το από άκρο σε άκρο lakehouse. Σε αυτή την υλοποίηση, το δείγμα δεδομένων αποθηκεύεται σε έναν λογαριασμό χώρου αποθήκευσης δεδομένων Azure σε μορφή αρχείου Parquet για όλους τους πίνακες. Ωστόσο, σε πραγματικά σενάρια, τα δεδομένα συνήθως προέρχονται από διάφορες προελεύσεις και σε διαφορετικές μορφές.
Η παρακάτω εικόνα εμφανίζει την προέλευση, τον προορισμό και τον μετασχηματισμό δεδομένων:
Προέλευση δεδομένων: Τα δεδομένα προέλευσης είναι σε μορφή αρχείου Parquet και σε μη κομματική δομή. Αποθηκεύεται σε έναν φάκελο για κάθε πίνακα. Σε αυτή την εκμάθηση, ρυθμίσαμε μια διοχέτευση για την πρόσληψη του πλήρους ιστορικού ή δεδομένων μία φορά στο lakehouse.
Σε αυτή την εκμάθηση, χρησιμοποιούμε τον πίνακα δεδομένων Πωλήσεις , ο οποίος έχει έναν γονικό φάκελο με δεδομένα ιστορικού για 11 μήνες (με έναν υποφάκελο για κάθε μήνα) και έναν άλλο φάκελο που περιέχει επαυξητικά δεδομένα για τρεις μήνες (έναν υποφάκελο για κάθε μήνα). Κατά τη διάρκεια της αρχικής πρόσληψης δεδομένων, 11 μήνες δεδομένων προσμετωπίζονται στον πίνακα lakehouse. Ωστόσο, όταν φτάνουν τα επαυξητικά δεδομένα, περιλαμβάνουν ενημερωμένα δεδομένα για Τον Οκτώβριο και Νοέμβριο και νέα δεδομένα για τα δεδομένα Δεκεμβρίου και Νοεμβρίου συγχωνεύονται με τα υπάρχοντα δεδομένα και τα νέα δεδομένα Δεκεμβρίου εγγράφονται σε πίνακα lakehouse όπως φαίνεται στην παρακάτω εικόνα:
Lakehouse: Σε αυτό το εκπαιδευτικό βοήθημα, θα δημιουργήσετε ένα lakehouse, θα αποκτήσετε δεδομένα στο τμήμα αρχείων του lakehouse και, στη συνέχεια, θα δημιουργήσετε πίνακες της λίμνης delta στο τμήμα Πίνακες του lakehouse.
Μετασχηματισμός: Για την προετοιμασία και τον μετασχηματισμό δεδομένων, βλέπετε δύο διαφορετικές προσεγγίσεις. Επιδεικνύουμε τη χρήση σημειωματάριων/Spark για τους χρήστες που προτιμούν μια εμπειρία με βάση τον κώδικα και χρησιμοποιούν διοχετεύσεις/ροή δεδομένων για χρήστες που προτιμούν μια εμπειρία με λίγο ή καθόλου κώδικα.
Κατανάλωση: Για να επιδείξετε την κατανάλωση δεδομένων, βλέπετε πώς μπορείτε να χρησιμοποιήσετε τη δυνατότητα DirectLake του Power BI για να δημιουργήσετε αναφορές, πίνακες εργαλείων και να υποβάλετε απευθείας ερωτήματα σε δεδομένα από το lakehouse. Επιπλέον, επιδεικνύουμε πώς μπορείτε να καταστήσετε τα δεδομένα σας διαθέσιμα σε εργαλεία αναφοράς τρίτων, χρησιμοποιώντας το τελικό σημείο ανάλυσης TDS/SQL. Αυτό το τελικό σημείο σάς επιτρέπει να συνδεθείτε στην αποθήκη και να εκτελέσετε ερωτήματα SQL για ανάλυση.