Χρόνος εκτέλεσης Fabric 1.2 (GA)

Άρθρο
10/14/2024

Ο χρόνος εκτέλεσης Microsoft Fabric είναι μια ενσωματωμένη πλατφόρμα Azure που βασίζεται στο Apache Spark, η οποία επιτρέπει την εκτέλεση και διαχείριση των εμπειριών διαχείρισης δεδομένων και επιστήμης δεδομένων. Αυτό το έγγραφο καλύπτει τα στοιχεία και τις εκδόσεις Χρόνου εκτέλεσης 1.2.

Τα κύρια στοιχεία του Χρόνου εκτέλεσης 1.2 περιλαμβάνουν τα εξής:

Apache Spark 3.4.1
Λειτουργικό σύστημα: Μάρινερ 2.0
Java: 11
Σκάλα: 2.12.17
Python: 3.10
Delta Lake: 2.4.0
R: 4.2.2

Φιλοδώρημα

Να χρησιμοποιείτε πάντα την πιο πρόσφατη έκδοση χρόνου εκτέλεσης GA για τον φόρτο εργασίας παραγωγής σας, ο οποίος αυτήν τη στιγμή είναι ο Χρόνος εκτέλεσης 1.3.

Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε έκδοση χρόνου εκτέλεσης.

Το Microsoft Fabric Runtime 1.2 συνοδεύεται από μια συλλογή πακέτων προεπιλεγμένου επιπέδου, συμπεριλαμβανομένης μιας πλήρους εγκατάστασης Anaconda και βιβλιοθηκών που χρησιμοποιούνται συχνά για Java/Scala, Python και R. Αυτές οι βιβλιοθήκες περιλαμβάνονται αυτόματα κατά τη χρήση σημειωματάριων ή εργασιών στην πλατφόρμα Microsoft Fabric. Ανατρέξτε στην τεκμηρίωση για μια πλήρη λίστα βιβλιοθηκών. Το Microsoft Fabric κυκλοφορεί περιοδικά ενημερώσεις συντήρησης για τον χρόνο εκτέλεσης 1.2, παρέχοντας επιδιορθώσεις σφαλμάτων, βελτιώσεις επιδόσεων και ενημερώσεις κώδικα ασφαλείας. Παραμένοντας ενημερωμένοι εξασφαλίζει βέλτιστη απόδοση και αξιοπιστία για τις εργασίες επεξεργασίας δεδομένων σας.

Νέες δυνατότητες και βελτιώσεις της έκδοσης Spark 3.4.1

Το Apache Spark 3.4.0 είναι η πέμπτη έκδοση στη γραμμή 3.x. Αυτή η έκδοση, καθοδηγούμενη από την κοινότητα ανοιχτού κώδικα, έλυσε πάνω από 2.600 δελτία Jira. Παρουσιάζει ένα πρόγραμμα-πελάτη Python για το Spark Connect, βελτιώνει τη Δομημένη ροή με ασύγχρονη παρακολούθηση της προόδου και επεξεργασία κατάστασης Python. Επεκτείνει την κάλυψη API Pandas με υποστήριξη εισόδου NumPy, απλοποιεί τη μετεγκατάσταση από παραδοσιακές αποθήκες δεδομένων μέσω συμμόρφωσης ANSI και νέων ενσωματωμένων συναρτήσεων. Βελτιώνει επίσης την παραγωγικότητα της ανάπτυξης και τον εντοπισμό σφαλμάτων με δημιουργία προφίλ μνήμης. Επιπλέον, ο χρόνος εκτέλεσης 1.2 βασίζεται στο Apache Spark 3.4.1, μια έκδοση συντήρησης που εστιάζει στις επιδιορθώσεις σταθερότητας.

Βασικά σημεία

Διαβάστε την πλήρη έκδοση των σημειώσεων έκδοσης για μια συγκεκριμένη έκδοση του Apache Spark, μεταβαίνοντας στις εκδόσεις Spark 3.4.0 και Spark 3.4.1.

Νέες βελτιστοποιήσεις προσαρμοσμένων ερωτημάτων

Υποστήριξη ταυτόχρονης εγγραφής στο Spark

Η εμφάνιση ενός σφάλματος 404 με το μήνυμα "Αποτυχία λειτουργίας: Η καθορισμένη διαδρομή δεν υπάρχει" είναι ένα σύνηθες πρόβλημα κατά την εκτέλεση παράλληλων εισόσεων δεδομένων στον ίδιο πίνακα χρησιμοποιώντας μια ΕΙΣΑΓΩΓΉ SQL ΣΕ ερώτημα. Αυτό το σφάλμα μπορεί να οδηγήσει σε απώλεια δεδομένων. Η νέα μας δυνατότητα, ο αλγόριθμος δέσμευσης εξόδου αρχείου, επιλύει αυτό το πρόβλημα, επιτρέποντας στους πελάτες να εκτελούν απρόσκοπτα παράλληλη εισαγωγή δεδομένων.

Για να αποκτήσετε πρόσβαση σε αυτήν τη δυνατότητα, ενεργοποιήστε τη spark.sql.enable.concurrentWrites σημαία δυνατότητας, η οποία είναι ενεργοποιημένη από προεπιλογή ξεκινώντας από την έκδοση Runtime 1.2 (Spark 3.4). Παρόλο που αυτή η δυνατότητα είναι επίσης διαθέσιμη σε άλλες εκδόσεις του Spark 3, δεν είναι ενεργοποιημένη από προεπιλογή. Αυτή η δυνατότητα δεν υποστηρίζει παράλληλη εκτέλεση ερωτημάτων ΕΙΣΑΓΩΓΉς ΑΝΤΙΚΑΤΆΣΤΑΣΗς όπου κάθε ταυτόχρονη εργασία αντικαθιστά δεδομένα σε διαφορετικά διαμερίσματα του ίδιου πίνακα δυναμικά. Για τον σκοπό αυτό, το Spark προσφέρει μια εναλλακτική δυνατότητα, η οποία μπορεί να ενεργοποιηθεί ρυθμίζοντας τη spark.sql.sources.partitionOverwriteMode ρύθμιση σε δυναμική.

Έξυπνες αναγνώσεις, οι οποίες παραλείπουν αρχεία από αποτυχημένες εργασίες

Στο τρέχον σύστημα δέσμευσης Spark, όταν αποτυγχάνει μια εισαγωγή σε μια εργασία πίνακα, αλλά ορισμένες εργασίες είναι επιτυχείς, τα αρχεία που δημιουργούνται από τις επιτυχημένες εργασίες συνυπάρχουν με αρχεία από την αποτυχημένη εργασία. Αυτή η συνύπαρξη μπορεί να προκαλέσει σύγχυση στους χρήστες, καθώς καθίσταται δύσκολη η διάκριση μεταξύ αρχείων που ανήκουν σε επιτυχημένες και ανεπιτυχείς εργασίες. Επιπλέον, όταν μια εργασία διαβάζει από έναν πίνακα ενώ μια άλλη εισάγει δεδομένα ταυτόχρονα στον ίδιο πίνακα, η εργασία ανάγνωσης μπορεί να έχει πρόσβαση σε μη δεσμευμένα δεδομένα. Εάν αποτύχει μια εργασία εγγραφής, η εργασία ανάγνωσης μπορεί να επεξεργαστεί εσφαλμένα δεδομένα.

Η spark.sql.auto.cleanup.enabled σημαία ελέγχει τη νέα δυνατότητα, αντιμετωπίζοντας αυτό το ζήτημα. Όταν ενεργοποιηθεί, το Spark παραλείπει αυτόματα την ανάγνωση αρχείων που δεν έχουν δεσμευτεί όταν εκτελεί spark.read ή επιλέγει ερωτήματα από έναν πίνακα. Τα αρχεία που έχουν συνταχθεί πριν από την ενεργοποίηση αυτής της δυνατότητας συνεχίζουν να διαβάζονται ως συνήθως.

Ακολουθούν οι ορατές αλλαγές:

Όλα τα αρχεία περιλαμβάνουν πλέον ένα tid-{jobID} αναγνωριστικό στα ονόματα αρχείων τους.
Αντί για τον _success δείκτη που δημιουργείται συνήθως στη θέση εξόδου μετά την επιτυχή ολοκλήρωση της εργασίας, δημιουργείται ένας νέος _committed_{jobID} δείκτης. Αυτός ο δείκτης συσχετίζει επιτυχημένα αναγνωριστικά εργασιών με συγκεκριμένα ονόματα αρχείων.
Παρουσιάσαμε μια νέα εντολή SQL την οποία οι χρήστες μπορούν να εκτελούν περιοδικά για τη διαχείριση του χώρου αποθήκευσης και την εκκαθάριση μη δεσμευμένων αρχείων. Η σύνταξη για αυτή την εντολή είναι η εξής:
- Για να εκκαθαρίσετε έναν συγκεκριμένο κατάλογο: CLEANUP ('/path/to/dir') [RETAIN number HOURS];
- Για να εκκαθαρίσετε έναν συγκεκριμένο πίνακα: CLEANUP [db_name.]table_name [RETAIN number HOURS]; Σε αυτή τη σύνταξη, path/to/dir αντιπροσωπεύει την τοποθεσία URI όπου απαιτείται εκκαθάριση και number είναι μια τιμή διπλού τύπου που αντιπροσωπεύει την περίοδο διατήρησης. Η προεπιλεγμένη περίοδος διατήρησης έχει οριστεί σε επτά ημέρες.
Προσθέσαμε μια νέα επιλογή ρύθμισης παραμέτρων με την ονομασία spark.sql.deleteUncommittedFilesWhileListing, η οποία έχει οριστεί σε false από προεπιλογή. Η ενεργοποίηση αυτής της επιλογής έχει ως αποτέλεσμα την αυτόματη διαγραφή μη δεσμευμένων αρχείων κατά την ανάγνωση, αλλά αυτό το σενάριο μπορεί να επιβραδύνει τις λειτουργίες ανάγνωσης. Συνιστάται να εκτελείτε με μη αυτόματο τρόπο την εντολή εκκαθάρισης όταν το σύμπλεγμα είναι αδρανές αντί να ενεργοποιείτε αυτήν τη σημαία.

Οδηγός μετεγκατάστασης από τον χρόνο εκτέλεσης 1.1 στον χρόνο εκτέλεσης 1.2

Κατά τη μετεγκατάσταση από τον χρόνο εκτέλεσης 1.1, με την υποστήριξη του Apache Spark 3.3, στον χρόνο εκτέλεσης 1.2, με υποστήριξη του Apache Spark 3.4, εξετάστε τον επίσημο οδηγό μετεγκατάστασης.

Νέες δυνατότητες και βελτιώσεις του Delta Lake 2.4

Το Delta Lake είναι ένα έργο ανοιχτού κώδικα που επιτρέπει την κατασκευή μιας αρχιτεκτονικής lakehouse πάνω σε λίμνες δεδομένων. Η Delta Lake παρέχει συναλλαγές ACID, χειρισμό μετα-δεδομένων με δυνατότητα κλιμάκωσης και ενοποιεί την επεξεργασία δεδομένων ροής και δέσμης πάνω σε υπάρχουσες λίμνες δεδομένων.

Συγκεκριμένα, το Delta Lake προσφέρει:

Συναλλαγές ACID στο Spark: Τα επίπεδα απομόνωσης με δυνατότητα σειριοποιήσιμου εξασφαλίζουν ότι οι αναγνώστες δεν βλέπουν ποτέ ασυνεπή δεδομένα.
Χειρισμός μετα-δεδομένων με δυνατότητα κλιμάκωσης: Χρησιμοποιεί την κατανεμημένη ισχύ επεξεργασίας Spark για τον χειρισμό όλων των μετα-δεδομένων για πίνακες κλίμακας petabyte με δισεκατομμύρια αρχεία με ευκολία.
Ενοποίηση ροής και δέσμης : Ένας πίνακας στο Delta Lake είναι ένας πίνακας δέσμης και μια προέλευση ροής και νιπτήρας. Η πρόσληψη δεδομένων ροής, το παρασκήνιο ιστορικού δέσμης, τα αλληλεπιδραστικά ερωτήματα απλώς λειτουργούν ως έχουν.
Επιβολή σχήματος: Χειρίζεται αυτόματα παραλλαγές σχήματος για να αποτρέψει την εισαγωγή κακών εγγραφών κατά την πρόσληψη.
Ταξίδι στον χρόνο: Η διαχείριση εκδόσεων δεδομένων επιτρέπει την επαναφορά, πλήρη ιστορικά ίχνη ελέγχου και αναπαραγώγιμα πειράματα εκμάθησης μηχανής.
Upsert και διαγραφές: Υποστηρίζει λειτουργίες συγχώνευσης, ενημέρωσης και διαγραφής για την ενεργοποίηση σύνθετων περιπτώσεων χρήσης, όπως η καταγραφή αλλαγών-δεδομένων, η αργή αλλαγή λειτουργιών διαστάσεων (SCD), τα upsert ροής και ούτω καθεξής.

Διαβάστε την πλήρη έκδοση των σημειώσεων έκδοσης για το Delta Lake 2.4.

Πακέτα προεπιλεγμένου επιπέδου για Java, Scala, βιβλιοθήκες Python

Για μια λίστα με όλα τα πακέτα προεπιλεγμένου επιπέδου για Java, Scala, Python και τις αντίστοιχες εκδόσεις τους, δείτε τις σημειώσεις έκδοσης.

Διαβάστε σχετικά με τους χρόνους εκτέλεσης Apache Spark στο Fabric - Επισκόπηση, Διαχείριση εκδόσεων, Υποστήριξη πολλαπλών χρόνου εκτέλεσης και αναβάθμιση του πρωτοκόλλου Delta Lake

Κοινή χρήση μέσω

Χρόνος εκτέλεσης Fabric 1.2 (GA)

Νέες δυνατότητες και βελτιώσεις της έκδοσης Spark 3.4.1

Βασικά σημεία

Νέες βελτιστοποιήσεις προσαρμοσμένων ερωτημάτων

Υποστήριξη ταυτόχρονης εγγραφής στο Spark

Έξυπνες αναγνώσεις, οι οποίες παραλείπουν αρχεία από αποτυχημένες εργασίες

Οδηγός μετεγκατάστασης από τον χρόνο εκτέλεσης 1.1 στον χρόνο εκτέλεσης 1.2

Νέες δυνατότητες και βελτιώσεις του Delta Lake 2.4

Πακέτα προεπιλεγμένου επιπέδου για Java, Scala, βιβλιοθήκες Python

Σχόλια

Πρόσθετοι πόροι

Κοινή χρήση μέσω

Χρόνος εκτέλεσης Fabric 1.2 (GA)

Νέες δυνατότητες και βελτιώσεις της έκδοσης Spark 3.4.1

Βασικά σημεία

Νέες βελτιστοποιήσεις προσαρμοσμένων ερωτημάτων

Υποστήριξη ταυτόχρονης εγγραφής στο Spark

Έξυπνες αναγνώσεις, οι οποίες παραλείπουν αρχεία από αποτυχημένες εργασίες

Οδηγός μετεγκατάστασης από τον χρόνο εκτέλεσης 1.1 στον χρόνο εκτέλεσης 1.2

Νέες δυνατότητες και βελτιώσεις του Delta Lake 2.4

Πακέτα προεπιλεγμένου επιπέδου για Java, Scala, βιβλιοθήκες Python

Σχετικό περιεχόμενο

Σχόλια

Πρόσθετοι πόροι