Κοινή χρήση μέσω


Σύγκριση των Fabric Data Engineering και Azure Synapse Spark

Αυτή η σύγκριση μεταξύ των Fabric Data Engineering και Azure Synapse Spark παρέχει μια σύνοψη των βασικών δυνατοτήτων και μια ανάλυση σε βάθος σε διάφορες κατηγορίες, οι οποίες περιλαμβάνουν χώρους συγκέντρωσης Spark, ρύθμιση παραμέτρων, βιβλιοθήκες, σημειωματάρια και ορισμούς εργασιών Spark.

Ο παρακάτω πίνακας συγκρίνει τα Azure Synapse Spark και Fabric Spark σε διαφορετικές κατηγορίες:

Κατηγορία Azure Synapse Spark Fabric Spark
Spark pools Spark pool
-
-
Πισίνα εκκίνησης Προσαρμοσμένος / χώρος συγκέντρωσης
Σειρά V
Υψηλή ταυτόχρονη εκτέλεση
Ρυθμίσεις παραμέτρων Spark Επίπεδο ομάδας
Επίπεδο ορισμού εργασίας σημειωματάριου ή Spark
Επίπεδο περιβάλλοντος
Επίπεδο ορισμού εργασίας σημειωματάριου ή Spark
Βιβλιοθήκες Spark Πακέτα επιπέδου χώρου εργασίας
Πακέτα επιπέδου ομάδας
Ενσωματωμένα πακέτα
-
Βιβλιοθήκες περιβάλλοντος
Ενσωματωμένες βιβλιοθήκες
Πόροι Notebook (Python, Scala, Spark SQL, R, .NET)
Ορισμός εργασίας Spark (Python, Scala, .NET)
Synapse διοχετεύσεις δεδομένων
Δραστηριότητες διοχέτευσης (σημειωματάριο, SJD)
Notebook (Python, Scala, Spark SQL, R)
Ορισμός εργασίας Spark (Python, Scala, R)
Διοχετεύσεις δεδομένων Data Factory
Δραστηριότητες διοχέτευσης (σημειωματάριο, SJD)
Δεδομένα Κύριος χώρος αποθήκευσης (ADLS Gen2)
Χώρος αποθήκευσης δεδομένων (βάσει συμπλέγματος/περιοχής)
Κύριος χώρος αποθήκευσης (OneLake)
Χώρος αποθήκευσης δεδομένων (βάσει χωρητικότητας/περιοχής)
Μετα-δεδομένα Εσωτερικό Hive Metastore (HMS)
Εξωτερικό HMS (με χρήση της βάσης δεδομένων SQL Azure)
Εσωτερικό HMS (lakehouse)
-
Συνδέσεις Τύπος σύνδεσης (συνδεδεμένες υπηρεσίες)
Προελεύσεις δεδομένων
Προέλευση δεδομένων conn. με ταυτότητα χώρου εργασίας
Τύπος σύνδεσης (DMTS)
Προελεύσεις δεδομένων
-
Ασφάλεια RBAC και έλεγχος πρόσβασης
ACL χώρου αποθήκευσης (ADLS Gen2)
Ιδιωτικές συνδέσεις
Διαχειριζόμενο VNet (απομόνωση δικτύου)
Ταυτότητα χώρου εργασίας Synapse
Προστασία διήθησης δεδομένων (DEP)
Ετικέτες υπηρεσίας
Key Vault (μέσω mssparkutils/ συνδεδεμένης υπηρεσίας)
RBAC και έλεγχος πρόσβασης
OneLake RBAC
Ιδιωτικές συνδέσεις
Διαχειριζόμενο VNet
Ταυτότητα χώρου εργασίας
-
Ετικέτες υπηρεσίας
Key Vault (μέσω σημειωματάριων )
DevOps Ενοποίηση Azure DevOps
CI/CD (δεν υπάρχει ενσωματωμένη υποστήριξη)
Ενοποίηση Azure DevOps
Διοχετεύσεις ανάπτυξης
Εμπειρία προγραμματιστή Ενοποίηση IDE (IntelliJ)
Περιβάλλον εργασίας χρήστη του Synapse Studio
Συνεργασία (χώροι εργασίας)
Livy API
API/SDK
mssparkutils
Ενοποίηση IDE (ΚΏΔΙΚΑς VS)
Περιβάλλον εργασίας χρήστη fabric
Συνεργασία (χώροι εργασίας και κοινή χρήση)
API Livy
API/SDK
notebooktutils
Καταγραφή και παρακολούθηση Spark Advisor
Ενσωματωμένες ομάδες παρακολούθησης και εργασίες (μέσω του Synapse Studio)
Διακομιστής ιστορικού Spark
Προμηθέας/Γκραφάνα
Ανάλυση αρχείων καταγραφής
Λογαριασμός υπηρεσίας αποθήκευσης
Κέντρα συμβάντων
Spark Advisor
Ενσωματωμένες ομάδες παρακολούθησης και εργασίες (μέσω κέντρου παρακολούθησης)
Διακομιστής ιστορικού Spark
-
Ανάλυση αρχείων καταγραφής
λογαριασμού υπηρεσίας αποθήκευσης
κέντρου συμβάντων
Επιχειρηματική συνέχεια και αποκατάσταση καταστροφής (BCDR) BCDR (δεδομένα) ADLS Gen2 BCDR (δεδομένα) OneLake

Ζητήματα και περιορισμοί:

  • Ενοποίηση DMTS: Δεν μπορείτε να χρησιμοποιήσετε το DMTS μέσω σημειωματάριων και ορισμών εργασίας Spark.

  • RBAC επιπέδου φόρτου εργασίας: Το Fabric υποστηρίζει τέσσερις διαφορετικούς ρόλους χώρου εργασίας. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Ρόλοι σε χώρους εργασίας στο Microsoft Fabric.

  • Διαχειριζόμενη ταυτότητα: Προς το παρόν, το Fabric δεν υποστηρίζει την εκτέλεση σημειωματάριων και ορισμούς εργασίας Spark χρησιμοποιώντας την ταυτότητα χώρου εργασίας ή τη διαχειριζόμενη ταυτότητα για το Azure KeyVault στα σημειωματάρια.

  • CI/CD: Μπορείτε να χρησιμοποιήσετε το API/SDK Fabric και τις διοχετεύσεις ανάπτυξης.

  • Άλλα ζητήματα:

    • JDBC: Η υποστήριξη σύνδεσης JDBC δεν είναι διαθέσιμη προς το παρόν στο Fabric.

Σύγκριση spark pool

Ο παρακάτω πίνακας συγκρίνει τις ομάδες Azure Synapse Spark και Fabric Spark.

Ρύθμιση Spark Azure Synapse Spark Fabric Spark
Ζωντανή πισίνα (προ-ζεστές παρουσίες) - Ναι, πισίνες εκκίνησης
Προσαρμοσμένη ομάδα Όχι Όχι
Εκδόσεις Spark (χρόνος εκτέλεσης) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5
Αυτόματη κλιμάκωση Όχι Όχι
Δυναμική εκχώρηση εκτελέσεων Ναι, έως 200 Ναι, βάσει των εκχωρημένων πόρων
Ρυθμιζόμενα μεγέθη κόμβων Ναι, 3-200 Ναι, 1 βάσει των εκχωρημένων πόρων
Ελάχιστη ρύθμιση παραμέτρων κόμβου 3 κόμβοι 1 κόμβος
Οικογένεια μεγέθους κόμβου Βελτιστοποιημένη μνήμη, επιτάχυνση GPU Βελτιστοποιημένη μνήμη
Μέγεθος κόμβου Small-XXXLarge Μικρή-XXLarge
Αυτόματη βίβλος Ναι, με δυνατότητα προσαρμογής τουλάχιστον 5 λεπτά Ναι, μη προσαρμόσιμα 2 λεπτά
Υψηλή ταυτόχρονη εκτέλεση Όχι Όχι
Σειρά V Όχι Όχι
Αυτόματος συντονισμός Spark Όχι Όχι
Εγγενής μηχανισμός εκτέλεσης Όχι Όχι
Όρια ταυτόχρονης εκτέλεσης Σταθερός Μεταβλητή βάσει εκχωρημένων πόρων
Πολλαπλές πισίνες Spark Όχι Ναι (περιβάλλοντα)
Έξυπνο cache Όχι Όχι
Υποστήριξη API/SDK Όχι Όχι
  • Χρόνος εκτέλεσης: Το Fabric δεν υποστηρίζει τις εκδόσεις Spark 2.4, 3.1 και 3.2. Το Fabric Spark υποστηρίζει το Spark 3.3 με Delta 2.2 εντός του Χρόνου εκτέλεσης 1.1, το Spark 3.4 με το Delta 2.4 εντός του Χρόνου εκτέλεσης 1.2 και το Spark 3.5 με Delta 3.1 εντός του χρόνου εκτέλεσης 1.3.

  • Αυτόματη κλιμάκωση: Στο Azure Synapse Spark, η ομάδα μπορεί να κλιμακώσει έως και 200 κόμβους, ανεξάρτητα από το μέγεθος του κόμβου. Στο Fabric, ο μέγιστος αριθμός κόμβων υπόκειται σε μέγεθος κόμβου και εκχωρημένους πόρους. Δείτε το παρακάτω παράδειγμα για το SKU F64.

    Μέγεθος spark pool Azure Synapse Spark Fabric Spark (Προσαρμοσμένη πισίνα, SKU F64)
    Μικρό Ελάχιστο: 3, Μέγιστο: 200 Ελάχιστο: 1, Μέγιστο: 32
    Μεσαία Ελάχιστο: 3, Μέγιστο: 200 Ελάχιστο: 1, Μέγιστο: 16
    Μεγάλο Ελάχιστο: 3, Μέγιστο: 200 Ελάχιστο: 1, Μέγιστο: 8
    X-Large Ελάχιστο: 3, Μέγιστο: 200 Ελάχιστο: 1, Μέγιστο: 4
    XX-Large Ελάχιστο: 3, Μέγιστο: 200 Ελάχιστο: 1, Μέγιστο: 2
  • Ρυθμιζόμενα μεγέθη κόμβων: Στο Azure Synapse Spark, μπορείτε να μεταβείτε έως και 200 κόμβους. Στο Fabric, ο αριθμός των κόμβων που μπορείτε να έχετε στην προσαρμοσμένη πισίνα Spark εξαρτάται από το μέγεθος του κόμβου και τους εκχωρημένους πόρους Fabric. Το σύνολο εκχωρημένων πόρων είναι μια μέτρηση της υπολογιστικής ισχύος που μπορείτε να χρησιμοποιήσετε στο Azure. Ένας τρόπος να το σκεφτείτε είναι ότι δύο εικονικοί πυρήνες Spark (μια μονάδα υπολογιστικής ισχύος για Spark) ισούται με μία μονάδα εκχωρημένων πόρων. Για παράδειγμα, ένα SKU F64 εκχωρημένων πόρων Fabric διαθέτει 64 μονάδες εκχωρημένων πόρων, που ισοδυναμούν με 128 spark εικονικούς πυρήνες. Επομένως, εάν επιλέξετε ένα μικρό μέγεθος κόμβου, μπορείτε να έχετε έως 32 κόμβους στην πισίνα σας (128/4 = 32). Στη συνέχεια, το σύνολο των εικονικών πυρήνων στους εκχωρημένους πόρους/εικονικούς πυρήνες ανά μέγεθος κόμβου = ο συνολικός αριθμός διαθέσιμων κόμβων. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Spark compute.

  • Οικογένεια μεγέθους κόμβου: Προς το παρόν, οι χώροι συγκέντρωσης Spark Fabric υποστηρίζουν μόνο βελτιστοποιημένη οικογένεια μεγέθους κόμβου μνήμης. Εάν χρησιμοποιείτε μια ομάδα SKU Spark με επιτάχυνση GPU στο Azure Synapse, δεν είναι διαθέσιμες στο Fabric.

  • Μέγεθος κόμβου: Το μέγεθος του xx-μεγάλου κόμβου παρέχεται με 432 GB μνήμης στο Azure Synapse, ενώ το ίδιο μέγεθος κόμβου έχει 512 GB στο Fabric συμπεριλαμβανομένων 64 εικονικών πυρήνων. Τα υπόλοιπα μεγέθη κόμβων (μικρό έως x-μεγάλο) έχουν τους ίδιους εικονικούς πυρήνες και μνήμη τόσο στο Azure Synapse όσο και στο Fabric.

  • Αυτόματη παύση: Εάν την ενεργοποιήσετε στο Azure Synapse Spark, ο χώρος συγκέντρωσης Apache Spark θα διακοπεί αυτόματα μετά από ένα καθορισμένο χρονικό διάστημα αδράνειας. Αυτή η ρύθμιση είναι διαμορφώσιμη στο Azure Synapse (τουλάχιστον 5 λεπτά), αλλά οι προσαρμοσμένοι χώροι συγκέντρωσης έχουν μια μη προσαρμόσιμη προεπιλεγμένη διάρκεια αυτόματης βίβλου 2 λεπτών στο Fabric μετά τη λήξη της περιόδου λειτουργίας. Η προεπιλεγμένη λήξη περιόδου λειτουργίας έχει οριστεί σε 20 λεπτά στο Fabric.

  • Υψηλή ταυτόχρονη εκτέλεση: Το Fabric υποστηρίζει υψηλή ταυτόχρονη εκτέλεση σε σημειωματάρια. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Λειτουργία υψηλής ταυτόχρονης εκτέλεσης στο Fabric Spark.

  • Όρια ταυτόχρονης εκτέλεσης: Όσον αφορά την ταυτόχρονη εκτέλεση, το Azure Synapse Spark έχει ένα όριο 50 ταυτόχρονων εργασιών εκτέλεσης ανά spark pool και 200 εργασίες σε ουρά ανά χώρο συγκέντρωσης Spark. Οι μέγιστες ενεργές εργασίες είναι 250 ανά spark pool και 1000 ανά χώρο εργασίας. Στο Microsoft Fabric Spark, οι SKU εκχωρημένων πόρων ορίζουν τα όρια ταυτόχρονης εκτέλεσης. Οι SKU έχουν διάφορα όρια στις μέγιστες ταυτόχρονες εργασίες που κυμαίνονται από 1 έως 512. Επίσης, το Fabric Spark διαθέτει ένα δυναμικό σύστημα περιορισμού που βασίζεται σε αποθέματα για τη διαχείριση της ταυτόχρονης εκτέλεσης και την εξασφάλιση ομαλής λειτουργίας ακόμη και σε περιόδους μέγιστης χρήσης. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Όρια ταυτόχρονης εκτέλεσης και ουρά στους εκχωρημένους πόρους Microsoft Fabric Spark και Fabric.

  • Πολλοί χώροι συγκέντρωσης Spark: Εάν θέλετε να έχετε πολλά spark pool, χρησιμοποιήστε περιβάλλοντα Fabric για να επιλέξετε έναν ορισμό εργασίας pool βάσει σημειωματάριου ή Spark. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Δημιουργία, ρύθμιση παραμέτρων και χρήση περιβάλλοντος στο Microsoft Fabric.

Σύγκριση ρυθμίσεων παραμέτρων Spark

Οι ρυθμίσεις παραμέτρων Spark μπορούν να εφαρμοστούν σε διαφορετικά επίπεδα:

  • Επίπεδο περιβάλλοντος: Αυτές οι ρυθμίσεις παραμέτρων χρησιμοποιούνται ως η προεπιλεγμένη ρύθμιση παραμέτρων για όλες τις εργασίες Spark στο περιβάλλον.
  • Επίπεδο ενσωμάτωσης: Ορίστε ενσωματωμένες ρυθμίσεις παραμέτρων Spark χρησιμοποιώντας ορισμούς εργασίας Notebooks και Spark.

Παρόλο που και οι δύο επιλογές υποστηρίζονται στο Azure Synapse Spark και στο Fabric, υπάρχουν ορισμένα ζητήματα:

Ρύθμιση παραμέτρων Spark Azure Synapse Spark Fabric Spark
Επίπεδο περιβάλλοντος Ναι, πισίνες Ναι, περιβάλλοντα
Ενσωματωμένο Όχι Όχι
Εισαγωγή/εξαγωγή Όχι Ναι (.yml από περιβάλλοντα)
Υποστήριξη API/SDK Όχι Όχι
  • Επίπεδο περιβάλλοντος: Στο Azure Synapse, μπορείτε να ορίσετε πολλές ρυθμίσεις παραμέτρων Spark και να τις εκχωρήσετε σε διαφορετικά σύνολα Spark. Μπορείτε να το κάνετε αυτό στο Fabric χρησιμοποιώντας περιβάλλοντα.

  • Ενσωματωμένα: Στο Azure Synapse, αμφότερα τα σημειωματάρια και οι εργασίες Spark υποστηρίζουν την επισύναψη διαφορετικών διαμορφώσεων Spark. Στο Fabric, οι ρυθμίσεις παραμέτρων επιπέδου περιόδου λειτουργίας προσαρμόζονται με τη spark.conf.set(<conf_name>, <conf_value>) ρύθμιση. Για εργασίες δέσμης, μπορείτε επίσης να εφαρμόσετε ρυθμίσεις παραμέτρων μέσω SparkConf.

  • Εισαγωγή/εξαγωγή: Αυτή η επιλογή για διαμορφώσεις Spark είναι διαθέσιμη σε περιβάλλοντα Fabric.

  • Άλλα ζητήματα:

    • Διαμορφώσεις Spark με δυνατότητα ενσωμάτωσης: Ορισμένες ρυθμίσεις παραμέτρων Spark είναι αμετάβλητες. Εάν λάβετε το μήνυμα AnalysisException: Can't modify the value of a Spark config: <config_name>, η εν λόγω ιδιότητα είναι αμετάβλητη.
    • Χρονοδιακόπτης FAIR: Ο χρονοδιακόπτης FAIR χρησιμοποιείται σε λειτουργία υψηλής ταυτόχρονης εκτέλεσης.
    • V-Order: Η V-Order είναι βελτιστοποίηση χρόνου εγγραφής που εφαρμόζεται στα αρχεία parquet που είναι ενεργοποιημένα από προεπιλογή στους χώρους συγκέντρωσης Fabric Spark.
    • Βελτιστοποιημένη εγγραφή: Η βελτιστοποιημένη εγγραφή είναι απενεργοποιημένη από προεπιλογή στο Azure Synapse, αλλά είναι ενεργοποιημένη από προεπιλογή για το Fabric Spark.

Σύγκριση βιβλιοθηκών Spark

Μπορείτε να εφαρμόσετε βιβλιοθήκες Spark σε διαφορετικά επίπεδα:

  • Επίπεδο χώρου εργασίας: Δεν μπορείτε να αποστείλετε/εγκαταστήσετε αυτές τις βιβλιοθήκες στον χώρο εργασίας σας και αργότερα να τις εκχωρήσετε σε ένα συγκεκριμένο σύνολο Spark στο Azure Synapse.
  • Επίπεδο περιβάλλοντος: Μπορείτε να αποστείλετε/εγκαταστήσετε βιβλιοθήκες σε ένα περιβάλλον. Οι βιβλιοθήκες σε επίπεδο περιβάλλοντος είναι διαθέσιμες σε όλα τα σημειωματάρια και τους ορισμούς εργασίας Spark που εκτελούνται στο περιβάλλον.
  • Ενσωματωμένες: Εκτός από τις βιβλιοθήκες σε επίπεδο περιβάλλοντος, μπορείτε επίσης να καθορίσετε ενσωματωμένες βιβλιοθήκες. Για παράδειγμα, στην αρχή μιας περιόδου λειτουργίας σημειωματάριου.

Ζητήματα:

Βιβλιοθήκη Spark Azure Synapse Spark Fabric Spark
Επίπεδο χώρου εργασίας Όχι Όχι
Επίπεδο περιβάλλοντος Ναι, πισίνες Ναι, περιβάλλοντα
Ενσωματωμένο Όχι Όχι
Εισαγωγή/εξαγωγή Όχι Όχι
Υποστήριξη API/SDK Όχι Όχι
  • Άλλα ζητήματα:
    • Ενσωματωμένες βιβλιοθήκες: Το Fabric και το Azure Synapse μοιράζονται έναν κοινό πυρήνα Spark, αλλά μπορεί να διαφέρουν ελαφρώς στην διαφορετική υποστήριξη των βιβλιοθηκών χρόνου εκτέλεσης. Συνήθως, η χρήση κώδικα είναι συμβατή με ορισμένες εξαιρέσεις. Σε αυτή την περίπτωση, οι χρήστες μπορεί να χρειαστούν μεταγλώττιση, προσθήκη προσαρμοσμένων βιβλιοθηκών και προσαρμογή της σύνταξης. Δείτε εδώ ενσωματωμένες βιβλιοθήκες χρόνου εκτέλεσης Fabric Spark.

Σημείωση

Μάθετε πώς μπορείτε να μετεγκαταστήσετε βιβλιοθήκες Azure Synapse Spark στο Fabric.

Σύγκριση σημειωματάριου

Τα σημειωματάρια και οι ορισμοί εργασίας Spark είναι κύρια στοιχεία κώδικα για την ανάπτυξη εργασιών Apache Spark στο Fabric. Υπάρχουν ορισμένες διαφορές μεταξύ των σημειωματάριων Azure Synapse Spark και των σημειωματάριων Fabric Spark:

Δυνατότητα σημειωματάριου Azure Synapse Spark Fabric Spark
Εισαγωγή/εξαγωγή Όχι Όχι
Ρύθμιση παραμέτρων περιόδου λειτουργίας Ναι, περιβάλλον εργασίας χρήστη και ενσωματωμένη Ναι, περιβάλλον εργασίας χρήστη (περιβάλλον) και ενσωματωμένο
IntelliSense Όχι Όχι
mssparkutils Όχι Όχι
Πόροι σημειωματάριου Όχι Όχι
Συνεργασία Όχι Όχι
Υψηλή ταυτόχρονη εκτέλεση Όχι Όχι
.NET για Spark C# Όχι Όχι
Υποστήριξη δραστηριότητας διοχέτευσης Όχι Όχι
Ενσωματωμένη υποστήριξη προγραμματισμένης εκτέλεσης Όχι Όχι
Υποστήριξη API/SDK Όχι Όχι
  • mssparkutils: Επειδή οι συνδέσεις DMTS δεν υποστηρίζονται ακόμα getToken στο Fabric και getSecret υποστηρίζονται προς το παρόν στο Fabric για mssparkutils.credentials.

  • Πόροι σημειωματάριων: Τα σημειωματάρια fabric παρέχουν ένα σύστημα αρχείων τύπου Unix για να σας βοηθήσουν να διαχειριστείτε τους φακέλους και τα αρχεία σας. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Τρόπος χρήσης σημειωματάριων Microsoft Fabric.

  • Συνεργασία: Το σημειωματάριο Fabric είναι ένα στοιχείο συνεργασίας που υποστηρίζει πολλούς χρήστες να επεξεργάζονται το ίδιο σημειωματάριο. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Τρόπος χρήσης σημειωματάριων Microsoft Fabric.

  • Υψηλή ταυτόχρονη εκτέλεση: Στο Fabric, μπορείτε να επισυνάψετε σημειωματάρια σε μια περίοδο λειτουργίας υψηλής ταυτόχρονης εκτέλεσης. Αυτή η επιλογή είναι μια εναλλακτική λύση για τους χρήστες που χρησιμοποιούν το ThreadPoolExecutor στο Azure Synapse. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Ρύθμιση παραμέτρων λειτουργίας υψηλής ταυτόχρονης εκτέλεσης για σημειωματάρια Fabric.

  • .NET για Spark C#: Το Fabric δεν υποστηρίζει .NET Spark (C#). Ωστόσο, η πρόταση ότι οι χρήστες με υπάρχοντες φόρτους εργασίας που έχουν συνταχθεί σε C# ή F# μετεγκαθίστανται σε Python ή Scala.

  • Ενσωματωμένη υποστήριξη προγραμματισμένης εκτέλεσης: Το Fabric υποστηρίζει προγραμματισμένες εκτελέσεις για σημειωματάρια.

  • Άλλα ζητήματα:

    • Μπορείτε να χρησιμοποιήσετε δυνατότητες μέσα σε ένα σημειωματάριο που υποστηρίζονται μόνο σε μια συγκεκριμένη έκδοση του Spark. Να θυμάστε ότι τα Spark 2.4 και 3.1 δεν υποστηρίζονται στο Fabric.
    • Εάν το σημειωματάριό σας ή η εργασία Spark χρησιμοποιεί μια συνδεδεμένη υπηρεσία με διαφορετικές συνδέσεις προέλευσης δεδομένων ή σημεία μονταρίσματος, θα πρέπει να τροποποιήσετε τις εργασίες spark ώστε να χρησιμοποιήσετε εναλλακτικές μεθόδους για τον χειρισμό συνδέσεων σε εξωτερικές προελεύσεις δεδομένων και νιπτήρες. Χρησιμοποιήστε κώδικα Spark για να συνδεθείτε σε προελεύσεις δεδομένων χρησιμοποιώντας διαθέσιμες βιβλιοθήκες Spark.

Σύγκριση ορισμού εργασίας Spark

Σημαντικά ζητήματα ορισμού εργασίας Spark:

Δυνατότητα εργασίας Spark Azure Synapse Spark Fabric Spark
PySpark Όχι Όχι
Scala Όχι Όχι
.NET για Spark C# Όχι Όχι
SparkR Όχι Όχι
Εισαγωγή/εξαγωγή Ναι (περιβάλλον εργασίας χρήστη) Όχι
Υποστήριξη δραστηριότητας διοχέτευσης Όχι Όχι
Ενσωματωμένη υποστήριξη προγραμματισμένης εκτέλεσης Όχι Όχι
Πολιτικές επανάληψης Όχι Όχι
Υποστήριξη API/SDK Όχι Όχι
  • Εργασίες Spark: Μπορείτε να φέρετε τα .py σας/. Αρχεία R/jar. Το Fabric υποστηρίζει SparkR. Ένας ορισμός εργασίας Spark υποστηρίζει αρχεία αναφοράς, ορίσματα γραμμής εντολών, διαμορφώσεις Spark και αναφορές lakehouse.

  • Εισαγωγή/εξαγωγή: Στο Azure Synapse, μπορείτε να εισαγάγετε/εξαγάγετε ορισμούς εργασίας Spark που βασίζονται σε json από το περιβάλλον εργασίας χρήστη. Αυτή η δυνατότητα δεν είναι διαθέσιμη ακόμα στο Fabric.

  • .NET για Spark C#: Το Fabric δεν υποστηρίζει .NET Spark (C#). Ωστόσο, η πρόταση είναι οι χρήστες με υπάρχοντες φόρτους εργασίας που έχουν συνταχθεί σε C# ή F# να μετεγκαταστατούν σε Python ή Scala.

  • Ενσωματωμένη υποστήριξη προγραμματισμένης εκτέλεσης: Το Fabric υποστηρίζει προγραμματισμένες εκτελέσεις για έναν ορισμό εργασίας Spark.

  • Πολιτικές επανάληψης: Αυτή η επιλογή επιτρέπει στους χρήστες να εκτελούν εργασίες ροής με δομή Spark απεριόριστα.

Σύγκριση Hive Metastore (HMS)

Διαφορές και ζητήματα hive MetaStore (HMS):

Τύπος HMS Azure Synapse Spark Fabric Spark
Εσωτερικό HMS Όχι Ναι (lakehouse)
Εξωτερικό HMS Όχι Όχι
  • Εξωτερικό HMS: Το Fabric προς το παρόν δεν υποστηρίζει ένα API Catalog και πρόσβαση σε ένα εξωτερικό Hive Metastore (HMS).