Οδηγός αποφάσεων Microsoft Fabric: επιλογή χώρου αποθήκευσης δεδομένων
Χρησιμοποιήστε αυτόν τον οδηγό αναφοράς και τα παραδείγματα σεναρίων για να σας βοηθήσουν να επιλέξετε έναν χώρο αποθήκευσης δεδομένων για τους φόρτους εργασίας σας Microsoft Fabric.
Ιδιότητες χώρου αποθήκευσης δεδομένων
Χρησιμοποιήστε αυτές τις πληροφορίες για να συγκρίνετε χώρους αποθήκευσης δεδομένων Fabric όπως αποθήκη, lakehouse, Eventhouse, βάση δεδομένων SQL και Datamart Power BI, με βάση τον όγκο δεδομένων, τον τύπο, την προσωπικότητα προγραμματιστών, το σύνολο δεξιοτήτων, τις λειτουργίες και άλλες δυνατότητες. Αυτές οι συγκρίσεις είναι οργανωμένες στους παρακάτω δύο πίνακες:
Πίνακας 1 από 2 | Lakehouse | Αποθήκη | Eventhouse |
---|---|---|---|
Όγκος δεδομένων | Απεριόριστο | Απεριόριστο | Απεριόριστο |
Τύπος δεδομένων | Αδόμητες ημιδομημένες, δομημένος |
Δομημένος ημι-δομημένο (JSON) |
Αδόμητες ημιδομημένες, δομημένος |
Κύρια προσωπικότητα προγραμματιστή | Μηχανικός δεδομένων, επιστήμονας δεδομένων | Προγραμματιστής αποθήκης δεδομένων, αρχιτέκτονας δεδομένων, μηχανικός δεδομένων, προγραμματιστής βάσεων δεδομένων | Προγραμματιστής εφαρμογών, επιστήμονας δεδομένων, μηχανικός δεδομένων |
Κύρια δεξιότητα ανάπτυξης | Spark (Scala, PySpark, Spark SQL, R) | SQL | Χωρίς κώδικα, KQL, SQL |
Δεδομένα που είναι οργανωμένα κατά | Φάκελοι και αρχεία, βάσεις δεδομένων και πίνακες | Βάσεις δεδομένων, σχήματα και πίνακες | Βάσεις δεδομένων, σχήματα και πίνακες |
Λειτουργίες ανάγνωσης | Spark, T-SQL | T-SQL, Spark* | KQL, T-SQL, Spark |
Λειτουργίες εγγραφής | Spark (Scala, PySpark, Spark SQL, R) | T-SQL | KQL, Spark, οικοσύστημα συνδέσεων |
Συναλλαγές πολλών πινάκων | Όχι | Όχι | Ναι, για πρόσληψη πολλών πινάκων |
Κύρια διασύνδεση ανάπτυξης | Σημειωματάρια Spark, ορισμοί εργασίας Spark | Δέσμες ενεργειών SQL | Σύνολο ερωτημάτων KQL, Βάση δεδομένων KQL |
Ασφάλεια | RLS, CLS**, επίπεδο πίνακα (T-SQL), κανένα για Spark | Επίπεδο αντικειμένου, RLS, CLS, DDL/DML, δυναμική απόκρυψη δεδομένων | RLS |
Πρόσβαση σε δεδομένα μέσω συντομεύσεων | Όχι | Ναι, μέσω του τελικού σημείου ανάλυσης SQL | Όχι |
Μπορεί να είναι μια προέλευση για συντομεύσεις | Ναι (αρχεία και πίνακες) | Ναι (πίνακες) | Όχι |
Υποβολή ερωτήματος σε όλα τα στοιχεία | Όχι | Όχι | Όχι |
Σύνθετη ανάλυση | Διασύνδεση για επεξεργασία δεδομένων μεγάλης κλίμακας, ενσωματωμένο παραλληλισμό δεδομένων και ανοχή βλαβών | Διασύνδεση για επεξεργασία δεδομένων μεγάλης κλίμακας, ενσωματωμένο παραλληλισμό δεδομένων και ανοχή βλαβών | Εγγενή στοιχεία χρονολογικής σειράς, πλήρεις δυνατότητες γεωγραφικών χωρικών δεδομένων και ερωτημάτων |
Υποστήριξη μορφοποίησης για προχωρημένους | Πίνακες που ορίζονται με χρήση PARQUET, CSV, AVRO, JSON και οποιαδήποτε μορφή αρχείου συμβατή με Apache Hive | Πίνακες που ορίζονται με χρήση PARQUET, CSV, AVRO, JSON και οποιαδήποτε μορφή αρχείου συμβατή με Apache Hive | Πλήρης δημιουργία ευρετηρίου για ελεύθερο κείμενο και ημι-δομημένα δεδομένα, όπως JSON |
Λανθάνων χρόνος πρόσληψης | Διαθέσιμο αμέσως για υποβολή ερωτημάτων | Διαθέσιμο αμέσως για υποβολή ερωτημάτων | Πρόσληψη σε ουρά, η πρόσληψη ροής έχει λανθάνοντα χρόνο μερικών δευτερολέπτων |
* Το Spark υποστηρίζει την ανάγνωση από πίνακες χρησιμοποιώντας συντομεύσεις, δεν υποστηρίζει ακόμα πρόσβαση σε προβολές, αποθηκευμένες διαδικασίες, συναρτήσεις κ.λπ.
Πίνακας 2 από 2 | Βάση δεδομένων SQL Fabric | Power BI Datamart |
---|---|---|
Όγκος δεδομένων | 4 TB | Έως 100 GB |
Τύπος δεδομένων | Δομημένος ημιδομημένες, Αδόμητες |
Δομημένη |
Κύρια προσωπικότητα προγραμματιστή | Προγραμματιστής AI, προγραμματιστής εφαρμογών, προγραμματιστής βάσεων δεδομένων, διαχειριστής DB | Επιστήμονας δεδομένων, αναλυτής δεδομένων |
Κύρια δεξιότητα ανάπτυξης | SQL | Χωρίς κώδικα, SQL |
Δεδομένα που είναι οργανωμένα κατά | Βάσεις δεδομένων, σχήματα, πίνακες | Βάση δεδομένων, πίνακες, ερωτήματα |
Λειτουργίες ανάγνωσης | T-SQL | Spark, T-SQL |
Λειτουργίες εγγραφής | T-SQL | Ροές δεδομένων, T-SQL |
Συναλλαγές πολλών πινάκων | Ναι, συμμόρφωση πλήρους ACID | Όχι |
Κύρια διασύνδεση ανάπτυξης | Δέσμες ενεργειών SQL | Power BI |
Ασφάλεια | Επίπεδο αντικειμένου, RLS, CLS, DDL/DML, δυναμική απόκρυψη δεδομένων | Ενσωματωμένο πρόγραμμα επεξεργασίας RLS |
Πρόσβαση σε δεδομένα μέσω συντομεύσεων | Όχι | Όχι |
Μπορεί να είναι μια προέλευση για συντομεύσεις | Ναι (πίνακες) | Όχι |
Υποβολή ερωτήματος σε όλα τα στοιχεία | Όχι | Όχι |
Σύνθετη ανάλυση | Αναλυτικές δυνατότητες T-SQL, δεδομένα που αναπαράγονται σε παρκέ δέλτα στο OneLake για ανάλυση | Διασύνδεση για την επεξεργασία δεδομένων με αυτοματοποιημένη ρύθμιση απόδοσης |
Υποστήριξη μορφοποίησης για προχωρημένους | Υποστήριξη πίνακα για OLTP, JSON, διάνυσμα, γράφημα, XML, χωρική τιμή, τιμή-κλειδιού | Πίνακες που ορίζονται με χρήση PARQUET, CSV, AVRO, JSON και οποιαδήποτε μορφή αρχείου συμβατή με Apache Hive |
Λανθάνων χρόνος πρόσληψης | Διαθέσιμο αμέσως για υποβολή ερωτημάτων | Διαθέσιμο αμέσως για υποβολή ερωτημάτων |
** Η ασφάλεια σε επίπεδο στηλών είναι διαθέσιμη στο Lakehouse μέσω ενός τελικού σημείου ανάλυσης SQL, χρησιμοποιώντας T-SQL.
Σενάρια
Εξετάστε αυτά τα σενάρια για βοήθεια σχετικά με την επιλογή ενός χώρου αποθήκευσης δεδομένων στο Fabric.
Σενάριο 1
Η Susan, επαγγελματίας προγραμματιστής, είναι νέα στο Microsoft Fabric. Είναι έτοιμοι να ξεκινήσουν την εκκαθάριση, τη μοντελοποίηση και την ανάλυση δεδομένων, αλλά πρέπει να αποφασίσουν να κατασκευάσουν μια αποθήκη δεδομένων ή ένα lakehouse. Μετά την εξέταση των λεπτομερειών στον προηγούμενο πίνακα, τα κύρια σημεία απόφασης είναι το διαθέσιμο σύνολο δεξιοτήτων και η ανάγκη για συναλλαγές πολλαπλών πινάκων.
Η Susan έχει αφιερώσει πολλά χρόνια στη δημιουργία αποθηκών δεδομένων σε μηχανισμούς σχεσιακών βάσεων δεδομένων και είναι εξοικειωμένη με τη σύνταξη και τη λειτουργικότητα SQL. Σκεπτόμενοι τη μεγαλύτερη ομάδα, οι κύριοι καταναλωτές αυτών των δεδομένων είναι επίσης εξειδικευμένοι με τα εργαλεία ανάλυσης SQL και SQL. Η Susan αποφασίζει να χρησιμοποιήσει μια αποθήκη Fabric, η οποία επιτρέπει στην ομάδα να αλληλεπιδρά κυρίως με το T-SQL, επιτρέποντας παράλληλα στους χρήστες Spark στον οργανισμό να έχουν πρόσβαση στα δεδομένα.
Η Susan δημιουργεί μια νέα αποθήκη δεδομένων και αλληλεπιδρά με αυτήν χρησιμοποιώντας το T-SQL όπως ακριβώς και με τις άλλες βάσεις δεδομένων του SQL Server. Το μεγαλύτερο μέρος του υπάρχοντος κώδικα T-SQL που έχει γράψει για να δημιουργήσει την αποθήκη της στον SQL Server θα λειτουργήσει στην αποθήκη δεδομένων Fabric, διευκολύνοντας τη μετάβαση. Εάν το επιλέξει, μπορεί ακόμα και να χρησιμοποιήσει τα ίδια εργαλεία που λειτουργούν με τις άλλες βάσεις δεδομένων της, όπως το SQL Server Management Studio. Χρησιμοποιώντας το πρόγραμμα επεξεργασίας SQL στην πύλη Fabric, η Susan και άλλα μέλη της ομάδας συντάσσουν ερωτήματα ανάλυσης που αναφέρονται σε άλλες αποθήκες δεδομένων και πίνακες Delta σε lakehouses απλώς χρησιμοποιώντας ονόματα τριών τμημάτων για την εκτέλεση ερωτημάτων μεταξύ βάσεων δεδομένων.
Σενάριο 2
Ο Rob, μηχανικός δεδομένων, πρέπει να αποθηκεύσει και να μοντελοποιεί διάφορα terabyte δεδομένων στο Fabric. Η ομάδα διαθέτει έναν συνδυασμό δεξιοτήτων PySpark και T-SQL. Οι περισσότεροι από την ομάδα που εκτελεί ερωτήματα T-SQL είναι καταναλωτές και, επομένως, δεν χρειάζεται να συντάσσουν προτάσεις INSERT, UPDATE ή DELETE. Οι υπόλοιποι προγραμματιστές αισθάνονται άνετα να εργάζονται σε σημειωματάρια και επειδή τα δεδομένα είναι αποθηκευμένα στην Delta, μπορούν να αλληλεπιδράσουν με μια παρόμοια σύνταξη SQL.
Ο Rob αποφασίζει να χρησιμοποιήσει ένα lakehouse, το οποίο επιτρέπει στην ομάδα μηχανικών δεδομένων να χρησιμοποιήσει τις διαφορετικές δεξιότητές της σε σχέση με τα δεδομένα, επιτρέποντας παράλληλα στα μέλη της ομάδας που είναι υψηλής ειδίκευσης στο T-SQL να καταναλώσουν τα δεδομένα.
Σενάριο 3
Ο Ash, προγραμματιστής πολιτών, είναι προγραμματιστής Power BI. Είναι εξοικειωμένοι με το Excel, το Power BI και το Office. Πρέπει να δημιουργήσουν ένα προϊόν δεδομένων για μια επιχειρηματική μονάδα. Γνωρίζουν ότι δεν έχουν ακριβώς τις δεξιότητες για να κατασκευάσουν μια αποθήκη δεδομένων ή ένα lakehouse, και αυτά φαίνονται πάρα πολύ για τις ανάγκες και τους όγκους δεδομένων τους. Εξετάζουν τις λεπτομέρειες του προηγούμενου πίνακα και βλέπουν ότι τα κύρια σημεία απόφασης είναι οι δικές τους δεξιότητες και η ανάγκη τους για αυτοεξυπηρέτησή, χωρίς δυνατότητα κώδικα και όγκος δεδομένων κάτω από 100 GB.
Ο Ash συνεργάζεται με επιχειρηματικούς αναλυτές που είναι εξοικειωμένοι με το Power BI και το Microsoft Office και γνωρίζει ότι έχουν ήδη συνδρομή σε premium εκχωρημένους πόρους. Καθώς σκέφτονται τη μεγαλύτερη ομάδα τους, συνειδητοποιούν ότι οι κύριοι καταναλωτές αυτών των δεδομένων είναι αναλυτές, εξοικειωμένοι με τα εργαλεία ανάλυσης χωρίς κώδικα και SQL. Ο Ash αποφασίζει να χρησιμοποιήσει ένα datamart Power BI, το οποίο επιτρέπει στην ομάδα να αλληλεπιδρά γρήγορα με τη δυνατότητα, χρησιμοποιώντας μια εμπειρία χωρίς κώδικα. Τα ερωτήματα μπορούν να εκτελεστούν μέσω Power BI και T-SQL, επιτρέποντας παράλληλα και στους χρήστες Spark στον οργανισμό να έχουν πρόσβαση στα δεδομένα.
Σενάριο 4
Η Νταίζη είναι επιχειρηματικός αναλυτής με εμπειρία στη χρήση του Power BI για την ανάλυση συμφορήσεων στην αλυσίδα προμηθειών για μια μεγάλη παγκόσμια αλυσίδα λιανικής πώλησης. Πρέπει να δημιουργήσουν μια λύση δεδομένων με δυνατότητα κλιμάκωσης που μπορεί να χειριστεί δισεκατομμύρια γραμμές δεδομένων και μπορεί να χρησιμοποιηθεί για τη δημιουργία πινάκων εργαλείων και αναφορών που μπορούν να χρησιμοποιηθούν για τη λήψη επιχειρηματικών αποφάσεων. Τα δεδομένα προέρχονται από εγκαταστάσεις, προμηθευτές, αποστολείς και άλλες πηγές σε διάφορες δομημένες, ημιδομημένες και μη δομημένες μορφές.
Η Νταίζη αποφασίζει να χρησιμοποιήσει ένα Eventhouse λόγω της δυνατότητας κλιμάκωσης, των χρόνων γρήγορης απόκρισης, των προηγμένων δυνατοτήτων ανάλυσης, συμπεριλαμβανομένης της ανάλυσης χρονικής σειράς, των γεωχωρικών συναρτήσεων και της λειτουργίας γρήγορων άμεσων ερωτημάτων στο Power BI. Τα ερωτήματα μπορούν να εκτελεστούν με χρήση του Power BI και της KQL για σύγκριση μεταξύ της τρέχουσας και της προηγούμενης περιόδου, για τον γρήγορο εντοπισμό αναδυόμενων προβλημάτων ή για την παροχή γεω-χωρικών αναλύσεων των χερσαίων και θαλάσσιων διαδρομών.
Σενάριο 5
Ο Kirby είναι αρχιτέκτονας εφαρμογών με εμπειρία στην ανάπτυξη εφαρμογών .NET για λειτουργικά δεδομένα. Χρειάζονται μια βάση δεδομένων υψηλής ταυτόχρονης εκτέλεσης με πλήρη συμμόρφωση συναλλαγών ACID και ισχυρές αναγκαστικές εξωτερικές κλειδιά για τη σχεσιακή ακεραιότητα. Ο Kirby θέλει το πλεονέκτημα της αυτόματης ρύθμισης επιδόσεων για την απλοποίηση της καθημερινής διαχείρισης βάσεων δεδομένων.
Ο Kirby αποφασίζει για μια βάση δεδομένων SQL στο Fabric, με τον ίδιο μηχανισμό βάσης δεδομένων SQL με τη βάση δεδομένων SQL Azure. Οι βάσεις δεδομένων SQL στο Fabric κλιμακώνονται αυτόματα για να ικανοποιούν τη ζήτηση καθ 'όλη τη διάρκεια της εργάσιμης ημέρας. Έχουν την πλήρη δυνατότητα πινάκων συναλλαγών και την ευελιξία των επιπέδων απομόνωσης συναλλαγών από το σειριοποιήσιμο στην ανάγνωση δεσμευμένου στιγμιότυπου. Η βάση δεδομένων SQL στο Fabric δημιουργεί αυτόματα και απορρίπτει μη απομονωμένα ευρετήρια με βάση ισχυρά σήματα από τα σχέδια εκτέλεσης που παρατηρήθηκαν με την πάροδο του χρόνου.
Στο σενάριο του Kirby, τα δεδομένα από την επιχειρησιακή εφαρμογή πρέπει να συνδεθούν με άλλα δεδομένα στο Fabric: στο Spark, σε μια αποθήκη και από συμβάντα σε πραγματικό χρόνο σε ένα Eventhouse. Κάθε βάση δεδομένων Fabric περιλαμβάνει ένα τελικό σημείο ανάλυσης SQL, επομένως η πρόσβαση σε δεδομένα θα είναι δυνατή σε πραγματικό χρόνο από το Spark ή με ερωτήματα Power BI με χρήση της λειτουργίας DirectLake. Αυτές οι λύσεις αναφοράς απαλλάσσουν την κύρια λειτουργική βάση δεδομένων από τα γενικά έξοδα των αναλυτικών φόρτων εργασίας και αποφεύγουν την αποκανονικοποίηση. Ο Kirby έχει επίσης υπάρχοντα λειτουργικά δεδομένα σε άλλες βάσεις δεδομένων SQL και χρειάζεται να εισαγάγει αυτά τα δεδομένα χωρίς μετασχηματισμό. Για να εισαγάγει υπάρχοντα λειτουργικά δεδομένα χωρίς μετατροπή τύπου δεδομένων, ο Kirby σχεδιάζει διοχετεύσεις δεδομένων με το Fabric Data Factory για την εισαγωγή δεδομένων στη βάση δεδομένων SQL Fabric.