Χρήση δυνατότητας συντήρησης πίνακα για τη διαχείριση πινάκων δέλτα στο Fabric
Το Lakehouse στο Microsoft Fabric παρέχει τη δυνατότητα συντήρησης πίνακα για την αποτελεσματική διαχείριση πινάκων δέλτα και για να τους διατηρείτε πάντα έτοιμους για ανάλυση. Αυτός ο οδηγός περιγράφει τη δυνατότητα συντήρησης πίνακα στο Lakehouse και τις δυνατότητές του.
Βασικές δυνατότητες του χαρακτηριστικού συντήρησης πίνακα lakehouse:
- Εκτελέστε ad-hoc συντήρηση πίνακα χρησιμοποιώντας ενέργειες δεξιού κλικ βάσει περιεχομένου σε έναν πίνακα δέλτα στην εξερεύνηση Lakehouse.
- Εφαρμόστε εκκαθάριση παλαιών αρχείων σε κάδους, σειρά V και εκκαθάριση παλαιών αρχείων που δεν έχουν προστεθεί.
Σημείωμα
Για προηγμένες εργασίες συντήρησης, όπως η ομαδοποίηση πολλών εντολών συντήρησης πίνακα, η ενορχήστρωση με βάση ένα χρονοδιάγραμμα, μια προσέγγιση με βάση τον κώδικα είναι η συνιστώμενη επιλογή. Για να μάθετε περισσότερα, ανατρέξτε στο θέμα Βελτιστοποίηση πινάκων Delta Lake και Άρθρο V-Order . Μπορείτε επίσης να χρησιμοποιήσετε το API Lakehouse για να αυτοματοποιήσετε τις λειτουργίες συντήρησης πίνακα, για να μάθετε περισσότερα ανατρέξτε στο θέμα Διαχείριση του Lakehouse με το Microsoft Fabric REST API.
Υποστηριζόμενοι τύποι αρχείου
Η συντήρηση πινάκων Lakehouse ισχύει μόνο στους πίνακες λιμνών δέλτα. Οι πίνακες Hive παλαιού τύπου που χρησιμοποιούν PARQUET, ORC, AVRO, CSV και άλλες μορφές δεν υποστηρίζονται.
Λειτουργίες συντήρησης πίνακα
Η δυνατότητα συντήρησης πίνακα προσφέρει τρεις λειτουργίες.
- Βελτιστοποίηση: Ενοποιεί πολλά μικρά αρχεία Parquet σε μεγάλο αρχείο. Οι μεγάλες μηχανές επεξεργασίας δεδομένων και όλες οι μηχανές Fabric επωφελούνται από το να έχουν μεγαλύτερα μεγέθη αρχείων. Η ύπαρξη αρχείων μεγέθους άνω των 128 MB και βέλτιστα κοντά στο 1 GB, βελτιώνει τη συμπίεση και την κατανομή δεδομένων, σε όλους τους κόμβους συμπλέγματος. Μειώνει την ανάγκη σάρωσης πολλών μικρών αρχείων για αποτελεσματικές λειτουργίες ανάγνωσης. Είναι γενικά βέλτιστη πρακτική να εκτελείτε στρατηγικές βελτιστοποίησης μετά τη φόρτωση μεγάλων πινάκων.
- V-Order: Εφαρμόζει βελτιστοποιημένη ταξινόμηση, κωδικοποίηση και συμπίεση στα αρχεία parquet Delta για να επιτρέπει λειτουργίες γρήγορης ανάγνωσης σε όλους τους μηχανισμούς Fabric. Η σειρά V πραγματοποιείται κατά τη διάρκεια της εντολής βελτιστοποίησης και παρουσιάζεται ως επιλογή στην ομάδα εντολών στην εμπειρία χρήστη. Για να μάθετε περισσότερα σχετικά με τη σειρά V, ανατρέξτε στο θέμα Βελτιστοποίηση πινάκων Delta Lake και Σειρά V.
- Κενό: Καταργεί παλιά αρχεία που δεν αναφέρονται πλέον από ένα αρχείο καταγραφής πίνακα Delta. Τα αρχεία πρέπει να είναι παλαιότερα από το όριο διατήρησης και το προεπιλεγμένο όριο διατήρησης αρχείου είναι επτά ημέρες. Όλοι οι πίνακες δέλτα στο OneLake έχουν την ίδια περίοδο διατήρησης. Η περίοδος διατήρησης αρχείου είναι ίδια, ανεξάρτητα από τη μηχανή υπολογιστικής λειτουργίας Fabric που χρησιμοποιείτε. Αυτή η συντήρηση είναι σημαντική για τη βελτιστοποίηση του κόστους αποθήκευσης. Ο ορισμός μικρότερης περιόδου διατήρησης επηρεάζει τις δυνατότητες ταξιδιού χρόνου της Delta. Είναι γενικά βέλτιστη πρακτική να ορίζετε ένα διάστημα διατήρησης σε τουλάχιστον επτά ημέρες, επειδή παλιά στιγμιότυπα και μη δεσμευμένα αρχεία μπορούν ακόμα να χρησιμοποιηθούν από τους ταυτόχρονους αναγνώστες πινάκων και συντάκτες. Η εκκαθάριση ενεργών αρχείων με την εντολή VACUUM μπορεί να οδηγήσει σε αποτυχίες αναγνώστη ή ακόμα και καταστροφή του πίνακα εάν καταργηθούν τα μη δεσμευμένα αρχεία.
Εκτέλεση ad-hoc συντήρησης πίνακα σε πίνακα Delta χρησιμοποιώντας lakehouse
Τρόπος χρήσης της δυνατότητας:
Από τον λογαριασμό σας Microsoft Fabric, μεταβείτε στο επιθυμητό Lakehouse.
Από την ενότητα Πίνακες της εξερεύνησης Lakehouse, κάντε δεξί κλικ στον πίνακα ή χρησιμοποιήστε τα αποσιωπητικά για να αποκτήσετε πρόσβαση στο μενού περιβάλλοντος.
Επιλέξτε την καταχώρηση μενού Συντήρηση .
Ελέγξτε τις επιλογές συντήρησης στο παράθυρο διαλόγου σύμφωνα με τις απαιτήσεις σας. Για περισσότερες πληροφορίες, ανατρέξτε στην ενότητα Λειτουργίες συντήρησης πίνακα αυτού του άρθρου.
Επιλέξτε Εκτέλεση τώρα για να εκτελέσετε την εργασία συντήρησης πίνακα.
Παρακολουθήστε την εκτέλεση της εργασίας συντήρησης από το τμήμα παραθύρου ειδοποιήσεων ή το Κέντρο παρακολούθησης.
Πώς λειτουργεί η συντήρηση πίνακα;
Αφού επιλέξετε Εκτέλεση τώρα , μια εργασία συντήρησης Spark υποβάλλεται για εκτέλεση.
- Η εργασία Spark υποβάλλεται χρησιμοποιώντας την ταυτότητα χρήστη και τα δικαιώματα πίνακα.
- Η εργασία Spark καταναλώνει εκχωρημένους πόρους Fabric του χώρου εργασίας/χρήστη που υπέβαλε την εργασία.
- Εάν υπάρχει μια άλλη εργασία συντήρησης που εκτελείται σε έναν πίνακα, απορρίπτεται μια νέα.
- Οι εργασίες σε διαφορετικούς πίνακες μπορούν να εκτελεστούν παράλληλα.
- Οι εργασίες συντήρησης πίνακα μπορούν να παρακολουθούνται εύκολα στο Κέντρο παρακολούθησης. Αναζητήστε κείμενο "TableMaintenance" μέσα στη στήλη ονόματος δραστηριότητας στην κύρια σελίδα του κέντρου παρακολούθησης.