Καλύτερα μαζί: το lakehouse και η αποθήκη
Ισχύει για:✅ Τελικό σημείο ανάλυσης SQL και Αποθήκη στο Microsoft Fabric
Αυτό το άρθρο εξηγεί τον φόρτο εργασίας αποθήκευσης δεδομένων με το τελικό σημείο ανάλυσης SQL του Lakehouse και σενάρια για τη χρήση του Lakehouse σε αποθήκευση δεδομένων. Για έναν οδηγό απόφασης σχετικά με την επιλογή ανάπτυξης δεδομένων αποθήκης, ανατρέξτε στο θέμα Οδηγός αποφάσεων του Microsoft Fabric: Επιλέξτε μεταξύ Warehouse και Lakehouse.
Τι είναι ένα τελικό σημείο ανάλυσης SQL Lakehouse;
Στο Fabric, όταν δημιουργείτε ένα lakehouse, δημιουργείται αυτόματα μια Αποθήκη .
Το τελικό σημείο ανάλυσης SQL σάς επιτρέπει να υποβάλετε ερωτήματα για δεδομένα στο Lakehouse χρησιμοποιώντας τη γλώσσα T-SQL και το πρωτόκολλο TDS. Κάθε Lakehouse διαθέτει ένα τελικό σημείο ανάλυσης SQL και κάθε χώρος εργασίας μπορεί να έχει περισσότερα από ένα Lakehouse. Ο αριθμός των τελικών σημείων ανάλυσης SQL σε έναν χώρο εργασίας συμφωνεί με τον αριθμό των στοιχείων Lakehouse.
- Το τελικό σημείο ανάλυσης SQL δημιουργείται αυτόματα για κάθε Lakehouse και εκθέτει τους πίνακες Delta από το Lakehouse ως πίνακες SQL στους οποίους μπορούν να υποβληθούν ερωτήματα χρησιμοποιώντας τη γλώσσα T-SQL.
- Κάθε πίνακας δέλτα από ένα Lakehouse αντιπροσωπεύεται ως ένας πίνακας. Τα δεδομένα πρέπει να είναι σε μορφή δέλτα.
- Το προεπιλεγμένο σημασιολογικό μοντέλο Power BI δημιουργείται για κάθε τελικό σημείο ανάλυσης SQL και ακολουθεί τη σύμβαση ονομασίας των αντικειμένων Lakehouse.
Δεν χρειάζεται να δημιουργήσετε ένα τελικό σημείο ανάλυσης SQL στο Microsoft Fabric. Οι χρήστες του Microsoft Fabric δεν μπορούν να δημιουργήσουν ένα τελικό σημείο ανάλυσης SQL σε έναν χώρο εργασίας. Ένα τελικό σημείο ανάλυσης SQL δημιουργείται αυτόματα για κάθε Lakehouse. Για να λάβετε ένα τελικό σημείο ανάλυσης SQL, δημιουργήστε μια λίμνη και θα δημιουργηθεί αυτόματα ένα τελικό σημείο ανάλυσης SQL για το Lakehouse.
Σημείωμα
Στο παρασκήνιο, το τελικό σημείο ανάλυσης SQL χρησιμοποιεί τον ίδιο μηχανισμό με την Αποθήκη για την εξυπηρέτηση ερωτημάτων SQL υψηλής απόδοσης και χαμηλού λανθάνοντος χρόνου.
Αυτόματος εντοπισμός μετα-δεδομένων
Μια απρόσκοπτη διαδικασία διαβάζει τα αρχεία καταγραφής δέλτα και από τον φάκελο αρχείων και εξασφαλίζει ότι τα μετα-δεδομένα SQL για πίνακες, όπως τα στατιστικά στοιχεία, είναι πάντα ενημερωμένα. Δεν απαιτείται καμία ενέργεια χρήστη και δεν χρειάζεται εισαγωγή, αντιγραφή δεδομένων ή ρύθμιση υποδομής. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Σχήμα που δημιουργείται αυτόματα στο τελικό σημείο ανάλυσης SQL.
Σενάρια που επιτρέπει το Lakehouse για αποθήκευση δεδομένων
Στο Fabric, προσφέρουμε μία αποθήκη.
Το Lakehouse, με το τελικό σημείο ανάλυσης SQL, που υποστηρίζεται από την Αποθήκη, μπορεί να απλοποιήσει το παραδοσιακό δέντρο αποφάσεων με μοτίβα αρχιτεκτονικής δέσμης, ροής ή λάμδα. Μαζί με μια αποθήκη, το lakehouse επιτρέπει πολλά σενάρια προσθετικής ανάλυσης. Αυτή η ενότητα εξερευνά τον τρόπο χρήσης ενός Lakehouse μαζί με μια Αποθήκη για μια καλύτερη στρατηγική ανάλυσης φυλών.
Ανάλυση με το χρυσό στρώμα του Fabric Lakehouse σας
Μία από τις γνωστές στρατηγικές για την οργάνωση δεδομένων λίμνης είναι μια αρχιτεκτονική μεταλλίων όπου τα αρχεία είναι οργανωμένα σε ακατέργαστο (χάλκινο), ενοποιημένο (ασημένιο) και εξευγενισμένα (χρυσά) επίπεδα. Ένα τελικό σημείο ανάλυσης SQL μπορεί να χρησιμοποιηθεί για την ανάλυση δεδομένων στο χρυσό επίπεδο της αρχιτεκτονικής μεταλλίων, εάν τα αρχεία αποθηκεύονται σε Delta Lake
μορφή, ακόμα και αν αποθηκεύονται εκτός του Microsoft Fabric OneLake.
Μπορείτε να χρησιμοποιήσετε συντομεύσεις OneLake για αναφορά σε φακέλους χρυσού σε εξωτερικούς λογαριασμούς αποθήκευσης του Azure Data Lake, τους οποίους διαχειρίζονται οι μηχανές Synapse Spark ή Azure Databricks.
Οι αποθήκες μπορούν επίσης να προστεθούν ως λύσεις θεματικών περιοχών ή τομέων για συγκεκριμένο θέμα που μπορεί να έχουν εξειδικευμένες απαιτήσεις ανάλυσης.
Εάν επιλέξετε να διατηρήσετε τα δεδομένα σας στο Fabric, θα είναι πάντα ανοικτά και προσβάσιμα μέσω API, μορφής Delta και φυσικά T-SQL.
Υποβολή ερωτήματος ως υπηρεσία σε πίνακες δέλτα από το Lakehouse και άλλα στοιχεία από το OneLake
Υπάρχουν περιπτώσεις χρήσης όπου ένας αναλυτής, επιστήμονας δεδομένων ή μηχανικός δεδομένων μπορεί να χρειαστεί να ζητήσει δεδομένα μέσα σε μια λίμνη δεδομένων. Στο Fabric, αυτή η εμπειρία από άκρο σε άκρο είναι πλήρως SaaSified.
Το OneLake είναι μια ενιαία, ενοποιημένη, λογική λίμνη δεδομένων για ολόκληρο τον οργανισμό. Το OneLake είναι το OneDrive για δεδομένα. Το OneLake μπορεί να περιέχει πολλούς χώρους εργασίας, για παράδειγμα, κατά μήκος των εταιρικών τμημάτων σας. Κάθε στοιχείο στο Fabric καθιστά τα δεδομένα προσβάσιμα μέσω OneLake.
Τα δεδομένα σε ένα Microsoft Fabric Lakehouse αποθηκεύονται φυσικά στο OneLake με την ακόλουθη δομή φακέλου:
- Ο
/Files
φάκελος περιέχει ανεπεξέργαστα και μη ενοποιημένα (χάλκινα) αρχεία τα οποία πρέπει να επεξεργαστούν οι μηχανικοί δεδομένων πριν αναλυθούν. Τα αρχεία μπορεί να είναι σε διάφορες μορφές, όπως CSV, Parquet, διαφορετικούς τύπους εικόνων, κ.λπ. - Ο
/Tables
φάκελος περιέχει εξευγενισμένα και ενοποιημένα (χρυσά) δεδομένα που είναι έτοιμα για επιχειρηματική ανάλυση. Τα ενοποιημένα δεδομένα είναι σε μορφή Delta Lake.
Ένα τελικό σημείο ανάλυσης SQL μπορεί να διαβάσει δεδομένα στον /tables
φάκελο στο OneLake. Η ανάλυση είναι τόσο απλή όσο η υποβολή ερωτημάτων στο τελικό σημείο ανάλυσης SQL του Lakehouse. Μαζί με την Αποθήκη, λαμβάνετε επίσης ερωτήματα μεταξύ βάσεων δεδομένων και τη δυνατότητα απρόσκοπτης εναλλαγής από ερωτήματα μόνο για ανάγνωση στη δημιουργία επιπλέον επιχειρηματικής λογικής με βάση τα δεδομένα OneLake με την Αποθήκη δεδομένων Fabric.
Διαχείριση δεδομένων με Spark και εξυπηρέτηση με SQL
Οι επιχειρήσεις που βασίζονται σε δεδομένα πρέπει να διατηρούν τα συστήματα παρασκηνίων και αναλύσεων σε συγχρονισμό σχεδόν σε πραγματικό χρόνο με εφαρμογές που απευθύνονται στον πελάτη. Οι επιπτώσεις των συναλλαγών πρέπει να αντικατοπτρίζουν με ακρίβεια μέσω ολοκληρωμένων διαδικασιών, σχετικών εφαρμογών και συστημάτων επεξεργασίας ηλεκτρονικών συναλλαγών (OLTP).
Στο Fabric, μπορείτε να χρησιμοποιήσετε ροή Spark ή διαχείριση δεδομένων για την επιμέλεια των δεδομένων σας. Μπορείτε να χρησιμοποιήσετε το τελικό σημείο ανάλυσης SQL Lakehouse για να επικυρώσετε την ποιότητα των δεδομένων και για υπάρχουσες διαδικασίες T-SQL. Αυτό μπορεί να γίνει σε μια αρχιτεκτονική μεταλλίων ή μέσα σε πολλά επίπεδα του Lakehouse, εξυπηρετώντας χάλκινα, αργυρά, χρυσά ή σκηνοθετημένα, επιμελημένα και βελτιστοποιημένα δεδομένα. Μπορείτε να προσαρμόσετε τους φακέλους και τους πίνακες που δημιουργούνται μέσω του Spark, ώστε να ικανοποιούν τις απαιτήσεις σας για τη διαχείριση δεδομένων και τις επιχειρηματικές απαιτήσεις. Όταν είναι έτοιμη, μια Αποθήκη μπορεί να εξυπηρετήσει όλες τις κατάντη εφαρμογές επιχειρηματικής ευφυΐας σας και άλλες περιπτώσεις χρήσης ανάλυσης, χωρίς αντιγραφή δεδομένων, χρήση προβολών ή βελτίωσης δεδομένων με χρήση CREATE TABLE AS SELECT
(CTAS), αποθηκευμένων διαδικασιών και άλλων εντολών DML/ DDL.
Ενοποίηση με το χρυσό στρώμα του Open Lakehouse σας
Ένα τελικό σημείο ανάλυσης SQL δεν περικλείεται στην ανάλυση δεδομένων μόνο στο Fabric Lakehouse. Ένα τελικό σημείο ανάλυσης SQL σάς επιτρέπει να αναλύετε δεδομένα λίμνης σε οποιαδήποτε λίμνη, χρησιμοποιώντας τα Synapse Spark, Azure Databricks ή οποιονδήποτε άλλο μηχανισμό διαχείρισης δεδομένων με επίκεντρο τη λίμνη. Τα δεδομένα μπορούν να αποθηκευτούν στο Azure Data Lake Storage ή στο Amazon S3.
Αυτή η σφιχτή, αμφίδρομη ενοποίηση με το Fabric Lakehouse είναι πάντα προσβάσιμη μέσω οποιουδήποτε μηχανισμού με ανοιχτά API, τη μορφή Delta και φυσικά το T-SQL.
Data Virtualization εξωτερικών λιμνών δεδομένων με συντομεύσεις
Μπορείτε να χρησιμοποιήσετε συντομεύσεις OneLake για αναφορά σε φακέλους χρυσού σε εξωτερικούς λογαριασμούς αποθήκευσης του Azure Data Lake, τους οποίους διαχειρίζονται οι μηχανές Synapse Spark ή Azure Databricks, καθώς και οποιονδήποτε πίνακα δέλτα είναι αποθηκευμένος στο Amazon S3.
Οποιοσδήποτε φάκελος αναφέρεται με χρήση μιας συντόμευσης μπορεί να αναλυθεί από ένα τελικό σημείο ανάλυσης SQL και δημιουργείται ένας πίνακας SQL για τα δεδομένα στα οποία γίνεται αναφορά. Ο πίνακας SQL μπορεί να χρησιμοποιηθεί για την έκθεση δεδομένων σε εξωτερικά διαχειριζόμενες λίμνες δεδομένων και για την ενεργοποίηση ανάλυσης σε αυτές.
Αυτή η συντόμευση λειτουργεί ως εικονική αποθήκη που μπορεί να αξιοποιηθεί από μια αποθήκη για πρόσθετες απαιτήσεις ανάλυσης κατάντη ή για την απευθείας υποβολή ερωτημάτων.
Χρησιμοποιήστε τα παρακάτω βήματα για να αναλύσετε δεδομένα σε εξωτερικούς λογαριασμούς χώρου αποθήκευσης λίμνης δεδομένων:
- Δημιουργήστε μια συντόμευση που αναφέρεται σε έναν φάκελο στο Azure Data Lake Storage ή στον λογαριασμό Amazon S3. Αφού εισαγάγετε τις λεπτομέρειες και τα διαπιστευτήρια της σύνδεσης, εμφανίζεται μια συντόμευση στο Lakehouse.
- Μεταβείτε στο τελικό σημείο ανάλυσης SQL του Lakehouse και βρείτε έναν πίνακα SQL που έχει ένα όνομα που συμφωνεί με το όνομα συντόμευσης. Αυτός ο πίνακας SQL αναφέρεται στον φάκελο στο φάκελο ADLS/S3.
- Υποβάλετε ερώτημα στον πίνακα SQL που αναφέρει δεδομένα στο ADLS/S3. Ο πίνακας μπορεί να χρησιμοποιηθεί ως οποιοσδήποτε άλλος πίνακας στο τελικό σημείο ανάλυσης SQL. Μπορείτε να ενώσετε πίνακες που αναφέρονται σε δεδομένα σε διαφορετικούς λογαριασμούς χώρου αποθήκευσης.
Σημείωμα
Εάν ο πίνακας SQL δεν εμφανιστεί αμέσως στο τελικό σημείο ανάλυσης SQL, ίσως χρειαστεί να περιμένετε λίγα λεπτά. Ο πίνακας SQL που αναφέρεται σε δεδομένα σε εξωτερικό λογαριασμό χώρου αποθήκευσης δημιουργείται με μια καθυστέρηση.
Ανάλυση αρχειοθετημένων ή ιστορικών δεδομένων σε μια λίμνη δεδομένων
Ο διαμερισμός δεδομένων είναι μια γνωστή τεχνική βελτιστοποίησης πρόσβασης δεδομένων σε λίμνες δεδομένων. Τα διαμετρικά σύνολα δεδομένων αποθηκεύονται στις δομές ιεραρχικών φακέλων στη μορφή /year=<year>/month=<month>/day=<day>
, όπου year
, month
και day
είναι οι στήλες διαμερίσματος. Αυτό σας επιτρέπει να αποθηκεύετε ιστορικά δεδομένα που διαχωρίζονται λογικά σε μια μορφή που επιτρέπει στους μηχανισμούς υπολογιστικής λειτουργίας να διαβάζουν τα δεδομένα όπως απαιτείται με το αποδοτικό φιλτράρισμα, σε αντίθεση με την ανάγνωση ολόκληρου του καταλόγου και όλων των φακέλων και αρχείων που περιέχονται μέσα σε αυτά.
Τα διαμερισμένα δεδομένα επιτρέπουν ταχύτερη πρόσβαση εάν τα ερωτήματα φιλτράρουν με βάση τα κατηγορήματα που συγκρίνουν στήλες κατηγορημάτων με μια τιμή.
Ένα τελικό σημείο ανάλυσης SQL μπορεί να διαβάσει εύκολα αυτόν τον τύπο δεδομένων χωρίς να απαιτείται ρύθμιση παραμέτρων. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε οποιαδήποτε εφαρμογή για την αρχειοθέτηση δεδομένων σε μια λίμνη δεδομένων, συμπεριλαμβανομένων των SQL Server 2022 ή Azure SQL Managed Instance. Αφού κάνετε διαμερισμό δεδομένων και τα οδηγήσετε σε μια λίμνη για αρχειοθέτηση με εξωτερικούς πίνακες, ένα τελικό σημείο ανάλυσης SQL μπορεί να διαβάσει διαμεισμένους πίνακες Delta Lake ως πίνακες SQL και να επιτρέψει στον οργανισμό σας να τα αναλύσει. Αυτό μειώνει το συνολικό κόστος ιδιοκτησίας, μειώνει τη δημιουργία διπλότυπων δεδομένων και φωτίζει μεγάλα δεδομένα, τεχνητή νοημοσύνη και άλλα σενάρια ανάλυσης.
Απεικόνιση δεδομένων Fabric με συντομεύσεις
Στο Fabric, οι χώροι εργασίας σάς επιτρέπουν να διαχωρίζεις δεδομένα με βάση σύνθετες επιχειρηματικές, γεωγραφικές ή ρυθμιστικές απαιτήσεις.
Ένα τελικό σημείο ανάλυσης SQL σάς επιτρέπει να αφήσετε τα δεδομένα στη θέση τους και να αναλύσετε τα δεδομένα στο Warehouse ή Lakehouse, ακόμη και σε άλλους χώρους εργασίας Microsoft Fabric, μέσω μιας απρόσκοπτης απεικόνισης. Κάθε Microsoft Fabric Lakehouse αποθηκεύει δεδομένα στο OneLake.
Οι συντομεύσεις σάς επιτρέπουν να αναφέρετε φακέλους σε οποιαδήποτε θέση OneLake.
Κάθε Αποθήκη Microsoft Fabric αποθηκεύει δεδομένα πίνακα στο OneLake. Εάν ένας πίνακας προσαρτάται μόνο, τα δεδομένα πίνακα εμφανίζονται ως δεδομένα της λίμνης Delta στο OneLake. Οι συντομεύσεις σάς επιτρέπουν να αναφέρετε φακέλους σε οποιαδήποτε OneLake όπου εμφανίζονται οι πίνακες Warehouse.
Κοινή χρήση και υποβολή ερωτημάτων μεταξύ χώρων εργασίας
Ενώ οι χώροι εργασίας σάς επιτρέπουν να διαχωρίζεις δεδομένα με βάση σύνθετες επιχειρηματικές, γεωγραφικές ή κανονιστικές απαιτήσεις, μερικές φορές χρειάζεται να διευκολύνετε την κοινή χρήση μεταξύ αυτών των γραμμών για συγκεκριμένες ανάγκες ανάλυσης.
Ένα τελικό σημείο ανάλυσης SQL Lakehouse μπορεί να επιτρέψει την εύκολη κοινή χρήση δεδομένων μεταξύ τμημάτων και χρηστών, όπου ένας χρήστης μπορεί να φέρει τους δικούς του εκχωρημένους πόρους και αποθήκη. Οι χώροι εργασίας οργανώνουν τμήματα, επιχειρηματικές μονάδες ή τομείς ανάλυσης. Χρησιμοποιώντας συντομεύσεις, οι χρήστες μπορούν να βρουν οποιαδήποτε δεδομένα warehouse ή Lakehouse. Οι χρήστες μπορούν να εκτελέσουν αμέσως τις δικές τους προσαρμοσμένες αναλύσεις από τα ίδια κοινόχρηστα δεδομένα. Εκτός από την παροχή βοήθειας σχετικά με τους αντιλογείς χρέωσης και τη χρήση του τμήματος, πρόκειται επίσης για μια έκδοση με μηδενικό αντίγραφο των δεδομένων.
Το τελικό σημείο ανάλυσης SQL επιτρέπει την υποβολή ερωτημάτων για οποιονδήποτε πίνακα και την εύκολη κοινή χρήση. Τα στοιχεία ελέγχου που προστέθηκαν στους ρόλους χώρου εργασίας και στους ρόλους ασφαλείας που μπορούν να διατεθούν περαιτέρω ώστε να ικανοποιούν πρόσθετες επιχειρηματικές απαιτήσεις.
Χρησιμοποιήστε τα παρακάτω βήματα για να ενεργοποιήσετε την ανάλυση δεδομένων μεταξύ χώρων εργασίας:
- Δημιουργήστε μια συντόμευση OneLake που αναφέρεται σε έναν πίνακα ή σε έναν φάκελο σε έναν χώρο εργασίας στον οποίο μπορείτε να αποκτήσετε πρόσβαση.
- Επιλέξτε ένα Lakehouse ή Warehouse που περιέχει έναν πίνακα ή έναν φάκελο Delta Lake που θέλετε να αναλύσετε. Όταν επιλέξετε έναν πίνακα/φάκελο, εμφανίζεται μια συντόμευση στο Lakehouse.
- Μεταβείτε στο τελικό σημείο ανάλυσης SQL του Lakehouse και βρείτε τον πίνακα SQL που έχει ένα όνομα που συμφωνεί με το όνομα συντόμευσης. Αυτός ο πίνακας SQL αναφέρεται στον φάκελο σε έναν άλλο χώρο εργασίας.
- Υποβάλετε ερώτημα στον πίνακα SQL που αναφέρει δεδομένα σε έναν άλλο χώρο εργασίας. Ο πίνακας μπορεί να χρησιμοποιηθεί ως οποιοσδήποτε άλλος πίνακας στο τελικό σημείο ανάλυσης SQL. Μπορείτε να ενώσετε τους πίνακες που αναφέρονται σε δεδομένα σε διαφορετικούς χώρους εργασίας.
Σημείωμα
Εάν ο πίνακας SQL δεν εμφανιστεί αμέσως στο τελικό σημείο ανάλυσης SQL, ίσως χρειαστεί να περιμένετε λίγα λεπτά. Ο πίνακας SQL που αναφέρεται σε δεδομένα σε έναν άλλο χώρο εργασίας δημιουργείται με μια καθυστέρηση.
Ανάλυση διαμετμημένων δεδομένων
Ο διαμερισμός δεδομένων είναι μια γνωστή τεχνική βελτιστοποίησης πρόσβασης δεδομένων σε λίμνες δεδομένων. Τα διαμετρικά σύνολα δεδομένων αποθηκεύονται στις δομές ιεραρχικών φακέλων στη μορφή /year=<year>/month=<month>/day=<day>
, όπου year
, month
και day
είναι οι στήλες διαμερίσματος. Τα διαμερισμένα σύνολα δεδομένων επιτρέπουν ταχύτερη πρόσβαση σε δεδομένα εάν τα ερωτήματα φιλτράρουν δεδομένα χρησιμοποιώντας τα κατηγορήματα που φιλτράρουν δεδομένα, συγκρίνοντας τις στήλες κατηγόρησης με μια τιμή.
Ένα τελικό σημείο ανάλυσης SQL μπορεί να αντιπροσωπεύει διαμεικοποιημένα σύνολα δεδομένων Delta Lake ως πίνακες SQL και να σας επιτρέψει να τα αναλύσετε.
Σχετικό περιεχόμενο
- Τι είναι ένα lakehouse;
- Οδηγός αποφάσεων Microsoft Fabric: Επιλογή μεταξύ Warehouse και Lakehouse
- Δημιουργία μιας λίμνης με το OneLake
- Προεπιλεγμένα σημασιολογικά μοντέλα Power BI
- Φόρτωση δεδομένων στο lakehouse
- Αντιγραφή δεδομένων με χρήση αντιγραφής δραστηριότητας στη διοχέτευση δεδομένων
- Εκμάθηση: Μετακίνηση δεδομένων στο Lakehouse μέσω βοηθού αντιγραφής
- Συνδεσιμότητα
- Τελικό σημείο ανάλυσης SQL της λίμνης
- Υποβολή ερωτήματος στην Αποθήκη