Κοινή χρήση μέσω


Πώς να δημιουργήσετε έναν ορισμό εργασίας Apache Spark στο Fabric

Σε αυτή την εκμάθηση, μάθετε πώς μπορείτε να δημιουργήσετε έναν ορισμό εργασίας Spark στο Microsoft Fabric.

Προαπαιτούμενα στοιχεία

Πριν ξεκινήσετε, χρειάζεστε:

Φιλοδώρημα

Για να εκτελέσετε το στοιχείο ορισμού εργασίας Spark, πρέπει να έχετε ένα αρχείο κύριου ορισμού και ένα προεπιλεγμένο περιβάλλον lakehouse. Εάν δεν έχετε ένα lakehouse, μπορείτε να δημιουργήσετε ένα ακολουθώντας τα βήματα στο create a lakehouse.

Δημιουργία ορισμού εργασίας Spark

Η διαδικασία δημιουργίας ορισμού εργασίας Spark είναι γρήγορη και απλή. Υπάρχουν πολλοί τρόποι για να ξεκινήσετε.

Επιλογές για τη δημιουργία ενός ορισμού εργασίας Spark

Υπάρχουν διάφοροι τρόποι για να ξεκινήσετε με τη διαδικασία δημιουργίας:

  • Αρχική σελίδα μηχανικής δεδομένων: Μπορείτε εύκολα να δημιουργήσετε έναν ορισμό εργασίας Spark μέσω της κάρτας Spark Job Definition στην ενότητα Δημιουργία στην αρχική σελίδα.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε την κάρτα ορισμού εργασίας Spark.

  • Προβολή χώρου εργασίας: Μπορείτε επίσης να δημιουργήσετε έναν ορισμό εργασίας Spark μέσω του χώρου εργασίας στη διαχείριση δεδομένων χρησιμοποιώντας το αναπτυσσόμενο μενού Δημιουργία .

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε ορισμό εργασίας Spark στο νέο μενού.

  • Δημιουργία προβολής: Ένα άλλο σημείο εισόδου για τη δημιουργία ενός ορισμού εργασίας Spark είναι η σελίδα Δημιουργία στη Διαχείριση δεδομένων.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε τον ορισμό εργασίας Spark στο κέντρο δημιουργίας.

Πρέπει να δώσετε ένα όνομα στην εργασία Spark κατά τη δημιουργία της. Το όνομα πρέπει να είναι μοναδικό εντός του τρέχοντος χώρου εργασίας. Ο νέος ορισμός εργασίας Spark δημιουργείται στον τρέχοντα χώρο εργασίας σας.

Δημιουργία ορισμού εργασίας Spark για το PySpark (Python)

Για να δημιουργήσετε έναν ορισμό εργασίας Spark για το PySpark:

  1. Κατεβάστε το δείγμα αρχείου Parquet yellow_tripdata_2022-01.parquet και αποστείλετε στο τμήμα αρχείων του lakehouse.

  2. Δημιουργήστε έναν νέο ορισμό εργασίας Spark.

  3. Επιλέξτε PySpark (Python) από την αναπτυσσόμενη λίστα Γλώσσα .

  4. Κάντε λήψη του δείγματος createTablefromParquet.py και αποστείλετε το ως αρχείο κύριου ορισμού. Το αρχείο κύριου ορισμού (εργασία. Κύρια) είναι το αρχείο που περιέχει τη λογική της εφαρμογής και είναι υποχρεωτικό να εκτελέσετε μια εργασία Spark. Για κάθε ορισμό εργασίας Spark, μπορείτε να αποστείλετε μόνο ένα αρχείο κύριου ορισμού.

    Μπορείτε να αποστείλετε το αρχείο κύριου ορισμού από την τοπική επιφάνεια εργασίας σας ή μπορείτε να κάνετε αποστολή από ένα υπάρχον Azure Data Lake Storage (ADLS) Gen2, παρέχοντας την πλήρη διαδρομή ABFSS του αρχείου. Για παράδειγμα, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Αποστείλετε αρχεία αναφοράς ως .py αρχεία. Τα αρχεία αναφοράς είναι οι λειτουργικές μονάδες python που εισάγονται από το αρχείο κύριου ορισμού. Όπως ακριβώς και με το αρχείο κύριου ορισμού, μπορείτε να κάνετε αποστολή από την επιφάνεια εργασίας σας ή ένα υπάρχον ADLS Gen2. Υποστηρίζονται πολλά αρχεία αναφοράς.

    Φιλοδώρημα

    Εάν χρησιμοποιείτε μια διαδρομή ADLS Gen2, για να βεβαιωθείτε ότι το αρχείο είναι προσβάσιμο, πρέπει να δώσετε στον λογαριασμό χρήστη που εκτελεί την εργασία τα κατάλληλα δικαιώματα στον λογαριασμό χώρου αποθήκευσης. Προτείνουμε δύο διαφορετικούς τρόπους για να το κάνετε αυτό:

    • Εκχωρήστε στον λογαριασμό χρήστη έναν ρόλο Συμβάλλοντα για τον λογαριασμό χώρου αποθήκευσης.
    • Εκχωρήστε δικαιώματα ανάγνωσης και εκτέλεσης στον λογαριασμό χρήστη για το αρχείο μέσω της λίστας ελέγχου πρόσβασης ADLS Gen2 (ACL).

    Για μια μη αυτόματη εκτέλεση, ο λογαριασμός του τρέχοντος χρήστη σύνδεσης χρησιμοποιείται για την εκτέλεση της εργασίας.

  6. Δώστε ορίσματα γραμμής εντολών για την εργασία, εάν είναι απαραίτητο. Χρησιμοποιήστε ένα κενό διάστημα ως διαχωριστικό για να διαχωρίσετε τα ορίσματα.

  7. Προσθέστε την αναφορά lakehouse στην εργασία. Πρέπει να έχετε τουλάχιστον μία αναφορά lakehouse που προστέθηκε στη δουλειά. Αυτό το lakehouse είναι το προεπιλεγμένο περιβάλλον lakehouse για την εργασία.

    Υποστηρίζονται πολλές αναφορές lakehouse. Βρείτε το μη προεπιλεγμένο όνομα της λίμνης και την πλήρη διεύθυνση URL OneLake στη σελίδα Ρυθμίσεις Spark.

    Στιγμιότυπο οθόνης που εμφανίζει ένα παράδειγμα μιας συμπληρωμένης οθόνης αρχείου κύριου ορισμού.

Δημιουργία ορισμού εργασίας Spark για Scala/Java

Για να δημιουργήσετε έναν ορισμό εργασίας Spark για Scala/Java:

  1. Δημιουργήστε έναν νέο ορισμό εργασίας Spark.

  2. Επιλέξτε Spark(Scala/Java) από την αναπτυσσόμενη λίστα Γλώσσα .

  3. Αποστείλετε το αρχείο κύριου ορισμού ως αρχείο .jar . Το αρχείο κύριου ορισμού είναι το αρχείο που περιέχει τη λογική εφαρμογής αυτής της εργασίας και είναι υποχρεωτικό να εκτελέσετε μια εργασία Spark. Για κάθε ορισμό εργασίας Spark, μπορείτε να αποστείλετε μόνο ένα αρχείο κύριου ορισμού. Εισαγάγετε το όνομα κύριας κλάσης.

  4. Αποστείλετε αρχεία αναφοράς ως αρχεία .jar . Τα αρχεία αναφοράς είναι τα αρχεία στα οποία αναφέρεται/εισάγεται από το αρχείο κύριου ορισμού.

  5. Δώστε ορίσματα γραμμής εντολών για την εργασία, εάν είναι απαραίτητο.

  6. Προσθέστε την αναφορά lakehouse στην εργασία. Πρέπει να έχετε τουλάχιστον μία αναφορά lakehouse που προστέθηκε στη δουλειά. Αυτό το lakehouse είναι το προεπιλεγμένο περιβάλλον lakehouse για την εργασία.

Δημιουργία ορισμού εργασίας Spark για R

Για να δημιουργήσετε έναν ορισμό εργασίας Spark για το SparkR(R):

  1. Δημιουργήστε έναν νέο ορισμό εργασίας Spark.

  2. Επιλέξτε SparkR(R) από την αναπτυσσόμενη λίστα Γλώσσα .

  3. Αποστολή του αρχείου κύριου ορισμού ως . Αρχείο R . Το αρχείο κύριου ορισμού είναι το αρχείο που περιέχει τη λογική εφαρμογής αυτής της εργασίας και είναι υποχρεωτικό να εκτελέσετε μια εργασία Spark. Για κάθε ορισμό εργασίας Spark, μπορείτε να αποστείλετε μόνο ένα αρχείο κύριου ορισμού.

  4. Αποστείλετε αρχεία αναφοράς ως . Αρχεία R . Τα αρχεία αναφοράς είναι τα αρχεία στα οποία αναφέρεται/εισάγεται από το αρχείο κύριου ορισμού.

  5. Δώστε ορίσματα γραμμής εντολών για την εργασία, εάν είναι απαραίτητο.

  6. Προσθέστε την αναφορά lakehouse στην εργασία. Πρέπει να έχετε τουλάχιστον μία αναφορά lakehouse που προστέθηκε στη δουλειά. Αυτό το lakehouse είναι το προεπιλεγμένο περιβάλλον lakehouse για την εργασία.

Σημείωμα

Ο ορισμός εργασίας Spark θα δημιουργηθεί στον τρέχοντα χώρο εργασίας σας.

Επιλογές προσαρμογής ορισμών εργασίας Spark

Υπάρχουν μερικές επιλογές για να προσαρμόσετε περαιτέρω την εκτέλεση των ορισμών εργασίας Spark.

  • Spark Compute: Στην καρτέλα Spark Compute , μπορείτε να δείτε την έκδοση χρόνου εκτέλεσης που είναι η έκδοση του Spark που θα χρησιμοποιηθεί για την εκτέλεση της εργασίας. Μπορείτε επίσης να δείτε τις ρυθμίσεις παραμέτρων Spark που θα χρησιμοποιηθούν για την εκτέλεση της εργασίας. Μπορείτε να προσαρμόσετε τις ρυθμίσεις παραμέτρων Spark κάνοντας κλικ στο κουμπί Προσθήκη .
  • Βελτιστοποίηση: Στην καρτέλα Βελτιστοποίηση , μπορείτε να ενεργοποιήσετε και να ρυθμίσετε την Πολιτική επανάληψης για την εργασία. Όταν ενεργοποιηθεί, η εργασία επαναληφθεί εάν αποτύχει. Μπορείτε επίσης να ορίσετε τον μέγιστο αριθμό επαναλήψεων και το διάστημα μεταξύ επαναλήψεων. Για κάθε προσπάθεια επανάληψης, γίνεται επανεκκίνηση της εργασίας. Βεβαιωθείτε ότι η δουλειά είναι ταυτοδύναμη.

    Στιγμιότυπο οθόνης που δείχνει πού μπορείτε να ρυθμίσετε την πολιτική επανάληψης.