Κοινή χρήση μέσω


Πίνακες Lakehouse και Delta Lake

Το Microsoft Fabric Lakehouse είναι μια πλατφόρμα αρχιτεκτονικής δεδομένων για την αποθήκευση, τη διαχείριση και την ανάλυση δομημένων και μη δομημένων δεδομένων σε μία μόνο θέση. Προκειμένου να επιτευχθεί απρόσκοπτη πρόσβαση σε δεδομένα σε όλους τους μηχανισμούς υπολογιστικής λειτουργίας στο Microsoft Fabric, το Delta Lake επιλέγεται ως η ενοποιημένη μορφή πίνακα.

Η αποθήκευση δεδομένων στο Lakehouse χρησιμοποιώντας δυνατότητες όπως η Φόρτωση σε πίνακες ή μέθοδοι που περιγράφονται στις Επιλογές για τη λήψη δεδομένων στο Fabric Lakehouse, όλα τα δεδομένα αποθηκεύονται σε μορφή Delta.

Για μια πιο ολοκληρωμένη εισαγωγή στη μορφή πίνακα Delta Lake, ακολουθήστε τις συνδέσεις στην ενότητα Επόμενα βήματα.

Δεδομένα μεγάλου όγκου, Apache Spark και μορφές πίνακα παλαιού τύπου

Το Microsoft Fabric Runtime για Apache Spark χρησιμοποιεί την ίδια βάση με το Azure Synapse Analytics Runtime για Apache Spark, αλλά περιέχει βασικές διαφορές για την παροχή μιας πιο βελτιωμένης συμπεριφοράς σε όλους τους μηχανισμούς της υπηρεσίας Microsoft Fabric. Στο Microsoft Fabric, οι βασικές δυνατότητες απόδοσης ενεργοποιούνται από προεπιλογή. Οι προχωρημένοι χρήστες του Apache Spark μπορούν να επαναφέρουν ρυθμίσεις παραμέτρων προηγούμενων τιμών για καλύτερη ευθυγράμμιση με συγκεκριμένα σενάρια.

Το Microsoft Fabric Lakehouse και η μηχανή Apache Spark υποστηρίζουν όλους τους τύπους πινάκων, διαχειριζόμενους και μη διαχειριζόμενους. Αυτό περιλαμβάνει προβολές και κανονικές μορφές πίνακα που δεν είναι Delta Hive. Οι πίνακες που ορίζονται με χρήση των PARQUET, CSV, AVRO, JSON και οποιουδήποτε συμβατού αρχείου Apache Hive λειτουργούν όπως αναμένεται.

Η εμπειρία περιβάλλοντος εργασίας χρήστη εξερεύνησης Lakehouse ποικίλλει ανάλογα με τον τύπο πίνακα. Προς το παρόν, η εξερεύνηση Lakehouse αποδίδει μόνο αντικείμενα πίνακα.

Διαφορές ρύθμισης παραμέτρων με το Azure Synapse Analytics

Ο παρακάτω πίνακας περιέχει τις διαφορές ρύθμισης παραμέτρων μεταξύ του Azure Synapse Analytics και του χρόνου εκτέλεσης του Microsoft Fabric για το Apache Spark.

Ρύθμιση παραμέτρων Apache Spark Τιμή Microsoft Fabric Τιμή Azure Synapse Analytics Σημειώσεις
spark.sql.sources.default δέλτα παρκέ Προεπιλεγμένη μορφή πίνακα
spark.sql.parquet.vorder.enabled true ΔΙ Συντάκτης V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB ΔΙ Όριο μεγέθους σελίδας λεξικού για σειρά V
spark.microsoft.delta.optimizeWrite.enabled true κατάργηση συνόλου (false) Βελτιστοποίηση εγγραφής

Αυτόματος εντοπισμός πινάκων

Η εξερεύνηση lakehouse παρέχει μια tree-like προβολή των αντικειμένων στο στοιχείο Microsoft Fabric Lakehouse. Διαθέτει μια βασική δυνατότητα εντοπισμού και εμφάνισης πινάκων που περιγράφονται στο αποθετήριο μετα-δεδομένων και στον χώρο αποθήκευσης OneLake. Οι αναφορές πίνακα εμφανίζονται κάτω από την Tables ενότητα του περιβάλλοντος εργασίας χρήστη εξερεύνησης Lakehouse. Ο αυτόματος εντοπισμός ισχύει επίσης για πίνακες που ορίζονται σε συντομεύσεις OneLake.

Πίνακες πάνω από συντομεύσεις

Το Microsoft Fabric Lakehouse υποστηρίζει πίνακες που έχουν οριστεί σε συντομεύσεις OneLake, για την παροχή απόλυτης συμβατότητας και καμίας μετακίνησης δεδομένων. Ο παρακάτω πίνακας περιέχει τις βέλτιστες πρακτικές σεναρίου για κάθε τύπο στοιχείου όταν τον χρησιμοποιείτε μέσω συντομεύσεων.

Προορισμός συντόμευσης Πού μπορείτε να δημιουργήσετε τη συντόμευση Βέλτιστες πρακτικές
Πίνακας Delta Lake Tables τμήμα Εάν υπάρχουν πολλοί πίνακες στον προορισμό, δημιουργήστε μία συντόμευση ανά πίνακα.
Φάκελοι με αρχεία Files τμήμα Χρησιμοποιήστε το Apache Spark για να χρησιμοποιήσετε τον προορισμό απευθείας χρησιμοποιώντας σχετικές διαδρομές. Φορτώστε τα δεδομένα στους εγγενείς πίνακες Delta του Lakehouse για μέγιστη απόδοση.
Πίνακες Apache Hive παλαιού τύπου Files τμήμα Χρησιμοποιήστε το Apache Spark για να χρησιμοποιήσετε τον προορισμό απευθείας χρησιμοποιώντας σχετικές διαδρομές ή να δημιουργήσετε μια αναφορά καταλόγου μετα-δεδομένων χρησιμοποιώντας CREATE EXTERNAL TABLE σύνταξη. Φορτώστε τα δεδομένα στους εγγενείς πίνακες Delta του Lakehouse για μέγιστη απόδοση.

Φόρτωση σε πίνακες

Το Microsoft Fabric Lakehouse παρέχει ένα εύχρηστο και παραγωγικό περιβάλλον εργασίας χρήστη για τη βελτίωση της φόρτωσης δεδομένων σε πίνακες Delta. Η δυνατότητα Φόρτωση σε πίνακες επιτρέπει στις οπτικές εμπειρίες να φορτώνουν κοινές μορφές αρχείων στην Delta για την ενίσχυση της αναλυτικής παραγωγικότητας σε όλες τις προσωπικότητες. Για να μάθετε περισσότερα σχετικά με τη δυνατότητα Φόρτωση σε πίνακες σε λεπτομέρειες, διαβάστε την τεκμηρίωση αναφοράς Φόρτωση σε πίνακες του Lakehouse.

Βελτιστοποίηση πίνακα Delta Lake

Η διατήρηση των πινάκων σε φόρμα για το ευρύ φάσμα των σεναρίων ανάλυσης δεν αποτελεί μικρό κατόρθωμα. Το Microsoft Fabric Lakehouse παρέχει τη δυνατότητα στους σημαντικούς παραμέτρους να ελαχιστοποιούν συνήθη προβλήματα που σχετίζονται με μεγάλους πίνακες δεδομένων, όπως η συμπύκνωση και μικρά μεγέθη αρχείων, καθώς και να μεγιστοποιούν τις επιδόσεις των ερωτημάτων. Ωστόσο, υπάρχουν πολλά σενάρια όπου αυτές οι παράμετροι χρειάζονται αλλαγές. Η βελτιστοποίηση του πίνακα Delta Lake και το άρθρο V-Order καλύπτουν ορισμένα βασικά σενάρια και παρέχει έναν αναλυτικό οδηγό σχετικά με τον τρόπο αποτελεσματικής διατήρησης των πινάκων Delta για μέγιστη απόδοση.