Τι είναι ο ορισμός εργασίας Apache Spark;
Ένας ορισμός εργασίας Apache Spark είναι ένα στοιχείο κώδικα Microsoft Fabric που σας επιτρέπει να υποβάλετε εργασίες δέσμης/ροής σε συμπλέγματα Spark. Με την αποστολή των δυαδικών αρχείων από την έξοδο μεταγλώττισης διαφορετικών γλωσσών (για παράδειγμα, .jar από Java), μπορείτε να εφαρμόσετε διαφορετική λογική μετασχηματισμού στα δεδομένα που φιλοξενούνται σε ένα lakehouse. Εκτός από το δυαδικό αρχείο, μπορείτε να προσαρμόσετε περαιτέρω τη συμπεριφορά της εργασίας με την αποστολή περισσότερων βιβλιοθηκών και ορισμάτων γραμμής εντολών.
Για να εκτελέσετε έναν ορισμό εργασίας Spark, πρέπει να έχετε τουλάχιστον μία λίμνη συσχετισμένη με αυτόν. Αυτό το προεπιλεγμένο περιβάλλον lakehouse χρησιμεύει ως το προεπιλεγμένο σύστημα αρχείων για τον χρόνο εκτέλεσης Spark. Για κάθε κώδικα Spark που χρησιμοποιεί μια σχετική διαδρομή για την ανάγνωση/εγγραφή δεδομένων, τα δεδομένα εξυπηρετούνται από το προεπιλεγμένο lakehouse.
Φιλοδώρημα
Για να εκτελέσετε ένα στοιχείο ορισμού εργασίας Spark, πρέπει να έχετε ένα αρχείο κύριου ορισμού και ένα προεπιλεγμένο περιβάλλον lakehouse. Εάν δεν έχετε ένα lakehouse, δημιουργήστε ένα ακολουθώντας τα βήματα στο create a lakehouse.