Χρόνος εκτέλεσης Fabric 1.3 (GA)
Ο χρόνος εκτέλεσης Fabric προσφέρει απρόσκοπτη ενοποίηση με το Azure. Παρέχει ένα εξελιγμένο περιβάλλον για έργα διαχείρισης δεδομένων και επιστήμης δεδομένων που χρησιμοποιούν το Apache Spark. Αυτό το άρθρο παρέχει μια επισκόπηση των βασικών δυνατοτήτων και στοιχείων του Fabric Runtime 1.3, του νεότερου χρόνου εκτέλεσης για υπολογισμούς μεγάλου όγκου δεδομένων.
Το Microsoft Fabric Runtime 1.3 είναι η πιο πρόσφατη έκδοση χρόνου εκτέλεσης GA και ενσωματώνει τα ακόλουθα στοιχεία και αναβαθμίσεις που έχουν σχεδιαστεί για να βελτιώνουν τις δυνατότητες επεξεργασίας δεδομένων σας:
- Apache Spark 3.5
- Λειτουργικό σύστημα: Μάρινερ 2.0
- Java: 11
- Σκάλα: 2.12.17
- Python: 3.11
- Delta Lake: 3.2
- R: 4.4.1
Φιλοδώρημα
Το Fabric Runtime 1.3 περιλαμβάνει υποστήριξη για τον εγγενή μηχανισμό εκτέλεσης, ο οποίος μπορεί να βελτιώσει σημαντικά την απόδοση χωρίς επιπλέον κόστος. Για να ενεργοποιήσετε τον εγγενή μηχανισμό εκτέλεσης σε όλες τις εργασίες και τα σημειωματάρια στο περιβάλλον σας, μεταβείτε στις ρυθμίσεις του περιβάλλοντός σας, επιλέξτε Spark compute, μεταβείτε στην καρτέλα Επιτάχυνση και επιλέξτε Ενεργοποίηση εγγενούς μηχανισμού εκτέλεσης. Μετά την αποθήκευση και τη δημοσίευση, αυτή η ρύθμιση εφαρμόζεται σε όλο το περιβάλλον, έτσι όλες οι νέες εργασίες και σημειωματάρια μεταβιβάζονται αυτόματα και επωφελούνται από τις βελτιωμένες δυνατότητες απόδοσης.
Χρησιμοποιήστε τις παρακάτω οδηγίες για να ενσωματώσετε το χρόνο εκτέλεσης 1.3 στον χώρο εργασίας σας και να χρησιμοποιήσετε τις νέες δυνατότητές του:
- Μεταβείτε στην καρτέλα Ρυθμίσεις χώρου εργασίας εντός του χώρου εργασίας Fabric σας.
- Μεταβείτε στην καρτέλα Διαχείριση δεδομένων/Επιστήμη και επιλέξτε Ρυθμίσεις Spark.
- Επιλέξτε την καρτέλα Περιβάλλον .
- Στην περιοχή Εκδόσεις χρόνου εκτέλεσης , αναπτύξτε την αναπτυσσόμενη λίστα.
- Επιλέξτε 1.3 (Spark 3.5, Delta 3.2) και αποθηκεύστε τις αλλαγές σας. Αυτή η ενέργεια ορίζει το 1,3 ως τον προεπιλεγμένο χρόνο εκτέλεσης για τον χώρο εργασίας σας.
Τώρα, μπορείτε να αρχίσετε να εργάζεστε με τις νεότερες βελτιώσεις και λειτουργίες που παρουσιάζονται στον χρόνο εκτέλεσης Fabric 1.3 (Spark 3.5 και Delta Lake 3.2).
Βασικά σημεία
Apache Spark 3.5
Το Apache Spark 3.5.0 είναι η έκτη έκδοση της σειράς 3.x. Αυτή η έκδοση είναι προϊόν εκτεταμένης συνεργασίας εντός της κοινότητας ανοιχτού κώδικα, η οποία αντιμετωπίζει περισσότερα από 1.300 ζητήματα, όπως καταγράφονται στο Jira.
Σε αυτήν την έκδοση, υπάρχει μια αναβάθμιση στη συμβατότητα για δομημένη ροή. Επιπλέον, αυτή η έκδοση διευρύνει τις λειτουργίες στο PySpark και το SQL. Προσθέτει δυνατότητες όπως ο όρος αναγνωριστικού SQL, επώνυμα ορίσματα σε κλήσεις συναρτήσεων SQL και η συμπερίληψη συναρτήσεων SQL για κατά προσέγγιση συναθροίσεις HyperLogLog. Άλλες νέες δυνατότητες περιλαμβάνουν επίσης συναρτήσεις πίνακα που ορίζονται από τον χρήστη Python, απλοποίηση της κατανεμημένης εκπαίδευσης μέσω DeepSpeed και νέες δυνατότητες δομημένης ροής, όπως η μετάδοση υδατογραφήματος και η λειτουργία dropDuplicatesWithinWatermark .
Μπορείτε να ελέγξετε την πλήρη λίστα και τις λεπτομερείς αλλαγές εδώ: https://spark.apache.org/releases/spark-release-3-5-0.html.
Delta Spark
Το Delta Lake 3.2 σηματοδοτεί μια συλλογική δέσμευση να καταστεί το Delta Lake διαλειτουργικό μεταξύ των μορφών, ευκολότερο στη χρήση και πιο αποδοτικό. Το Δέλτα Spark 3.2 είναι χτισμένο πάνω από το Apache Spark™ 3.5. Το αντικείμενο σχεδίασης Delta Spark έχει μετονομαστεί από πυρήνα δέλτα σε σπινθήρα δέλτα.
Μπορείτε να ελέγξετε την πλήρη λίστα και τις λεπτομερείς αλλαγές εδώ: https://docs.delta.io/3.2.0/index.html.
Φιλοδώρημα
Για ενημερωμένες πληροφορίες, μια λεπτομερή λίστα αλλαγών και συγκεκριμένες σημειώσεις έκδοσης για τους χρόνους εκτέλεσης Fabric, ελέγξτε και εγγραφείτε στις εκδόσεις και τις ενημερώσεις Spark Runtimes.
Σχετικό περιεχόμενο
- Διαβάστε σχετικά με τους χρόνους εκτέλεσης Apache Spark στο Fabric - Επισκόπηση, Διαχείριση εκδόσεων, Υποστήριξη πολλαπλών χρόνου εκτέλεσης και αναβάθμιση του πρωτοκόλλου Delta Lake
- Οδηγός μετεγκατάστασης Spark Core
- Οδηγοί μετεγκατάστασης SQL, Συνόλων δεδομένων και DataFrame
- Οδηγός μετεγκατάστασης δομημένου streaming
- Οδηγός μετεγκατάστασης MLlib (Εκμάθηση μηχανής)
- Οδηγός μετεγκατάστασης PySpark (Python στο Spark)
- Οδηγός μετεγκατάστασης SparkR (R on Spark)