Κοινή χρήση μέσω


Μετασχηματισμός δεδομένων με την εκτέλεση μιας δραστηριότητας Azure HDInsight

Η δραστηριότητα Azure HDInsight στο Data Factory για το Microsoft Fabric σάς επιτρέπει να οργανώσετε τους ακόλουθους τύπους εργασίας Azure HDInsight:

  • Εκτέλεση ερωτημάτων Hive
  • Κλήση προγράμματος MapReduce
  • Εκτέλεση ερωτημάτων χοίρων
  • Εκτέλεση προγράμματος Spark
  • Εκτέλεση προγράμματος Hadoop Stream

Αυτό το άρθρο παρέχει μια αναλυτική παρουσίαση βήμα προς βήμα που περιγράφει τον τρόπο δημιουργίας μιας δραστηριότητας Azure HDInsight χρησιμοποιώντας τη διασύνδεση Data Factory.

Προαπαιτούμενα στοιχεία

Για να ξεκινήσετε, πρέπει να συμπληρώσετε τις ακόλουθες προϋποθέσεις:

Προσθήκη δραστηριότητας Azure HDInsight (HDI) σε διοχέτευση με περιβάλλον εργασίας χρήστη

  1. Δημιουργήστε μια νέα διοχέτευση δεδομένων στον χώρο εργασίας σας.

  2. Κάντε αναζήτηση για Azure HDInsight από την κάρτα αρχικής οθόνης και επιλέξτε την ή επιλέξτε τη δραστηριότητα από τη γραμμή Δραστηριότητες για να την προσθέσετε στον καμβά διοχέτευσης.

    • Δημιουργία της δραστηριότητας από την κάρτα αρχικής οθόνης:

      Στιγμιότυπο οθόνης που δείχνει πού μπορείτε να δημιουργήσετε μια νέα δραστηριότητα Azure HDInsight.

    • Δημιουργία της δραστηριότητας από τη γραμμή Δραστηριοτήτων:

      Στιγμιότυπο οθόνης που δείχνει πού μπορείτε να δημιουργήσετε μια νέα δραστηριότητα Azure HDInsight από τη γραμμή Δραστηριότητες στο παράθυρο του προγράμματος επεξεργασίας διοχέτευσης.

  3. Επιλέξτε τη νέα δραστηριότητα Azure HDInsight στον καμβά του προγράμματος επεξεργασίας διοχέτευσης, εάν δεν είναι ήδη επιλεγμένη.

    Στιγμιότυπο οθόνης που εμφανίζει τη δραστηριότητα Azure HDInsight στον καμβά του προγράμματος επεξεργασίας διοχέτευσης.

    Ανατρέξτε στις Οδηγίες γενικών ρυθμίσεων για να ρυθμίσετε τις παραμέτρους των επιλογών που βρίσκονται στην καρτέλα Γενικές ρυθμίσεις.

Ρύθμιση παραμέτρων του συμπλέγματος HDI

  1. Επιλέξτε την καρτέλα Σύμπλεγμα HDI. Στη συνέχεια, μπορείτε να επιλέξετε μια υπάρχουσα ή να δημιουργήσετε μια νέα σύνδεση HDInsight.

  2. Για τη σύνδεση Πόρος, επιλέξτε τον Χώρο αποθήκευσης αντικειμένων blob Azure που αναφέρεται στο σύμπλεγμα Azure HDInsight. Μπορείτε να επιλέξετε ένα υπάρχον κατάστημα αντικειμένων Blob ή να δημιουργήσετε ένα νέο.

    Στιγμιότυπο οθόνης που εμφανίζει τις ιδιότητες συμπλέγματος HDI για τη δραστηριότητα Azure HDInsight.

Καθορισμός ρυθμίσεων

Επιλέξτε την καρτέλα Ρυθμίσεις για να δείτε τις ρυθμίσεις για προχωρημένους για τη δραστηριότητα.

Στιγμιότυπο οθόνης που εμφανίζει την καρτέλα Ρυθμίσεις των ιδιοτήτων δραστηριότητας Azure HDInsight στο παράθυρο του προγράμματος επεξεργασίας διοχέτευσης. .

Όλες οι σύνθετες ιδιότητες συμπλέγματος και οι δυναμικές παραστάσεις που υποστηρίζονται στη συνδεδεμένη υπηρεσία AZure Data Factory και Synapse Analytics HDInsight υποστηρίζονται πλέον επίσης και στη δραστηριότητα Azure HDInsight για το Data Factory στο Microsoft Fabric, στην ενότητα Για προχωρημένους στο περιβάλλον εργασίας χρήστη. Όλες αυτές οι ιδιότητες υποστηρίζουν εύχρηστες προσαρμοσμένες παραστάσεις με δυναμικό περιεχόμενο.

Τύπος συμπλέγματος

Για να ρυθμίσετε τις παραμέτρους για το σύμπλεγμα HDInsight, επιλέξτε πρώτα τον τύπο του από τις διαθέσιμες επιλογές, όπως Hive, Μείωση χάρτη, Χοίρος, Σπινθήρας και Ροή.

Hive

Εάν επιλέξετε Hive για Type, η δραστηριότητα εκτελεί ένα ερώτημα Hive. Μπορείτε προαιρετικά να καθορίσετε τη σύνδεση Δέσμη ενεργειών που αναφέρεται σε έναν λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Hive. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων στην ενότητα Για προχωρημένους , πληροφορίες εντοπισμού σφαλμάτων, Χρονικό όριο ερωτήματος, Ορίσματα, Παράμετροι και Μεταβλητές.

Στιγμιότυπο οθόνης που εμφανίζει τον τύπο συμπλέγματος hive.

Μείωση χάρτη

Εάν επιλέξετε Χάρτης Μείωση για τύπο, η δραστηριότητα καλεί ένα πρόγραμμα Μείωση χάρτη. Μπορείτε προαιρετικά να καθορίσετε στη σύνδεση Jar μια αναφορά σε έναν λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Map Reduce. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε το Όνομα κλάσης και τη διαδρομή Αρχείου που θα εκτελεστούν στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες λεπτομέρειες ρύθμισης παραμέτρων, όπως εισαγωγή βιβλιοθηκών Jar, πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και παραμέτρους στην ενότητα Για προχωρημένους .

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή

Γουρούνι

Εάν επιλέξετε Χοίρος για τύπο, η δραστηριότητα καλεί ένα ερώτημα χοίρου. Μπορείτε προαιρετικά να καθορίσετε τη ρύθμιση σύνδεσης Δέσμη ενεργειών που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο χοίρου. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως πληροφορίες εντοπισμού σφαλμάτων, ορίσματα, παραμέτρους και μεταβλητές στην ενότητα Για προχωρημένους .

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή του τύπου χοίρου για το σύμπλεγμα HDInsight.

Spark

Εάν επιλέξετε Spark ως Type, η δραστηριότητα καλεί ένα πρόγραμμα Spark. Επιλέξτε είτε Δέσμη ενεργειών, είτε Jar για τον τύπο Spark. Προαιρετικά, μπορείτε να καθορίσετε τη σύνδεση Εργασία που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Spark. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως όνομα κλάσης, χρήστη διακομιστή μεσολάβησης, πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και ρύθμιση παραμέτρων spark στην ενότητα Για προχωρημένους.

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή του τύπου Spark για το σύμπλεγμα HDInsight.

Ροής

Εάν επιλέξετε Ροή για τύπο, η δραστηριότητα καλεί ένα πρόγραμμα ροής. Καθορίστε τα ονόματα Mapper και Reducer και μπορείτε προαιρετικά να καθορίσετε τη σύνδεση Αρχείο που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο ροής. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο για το Mapper και τη διαδρομή αρχείου για Το Reducer που θα εκτελεστεί στο Azure HDInsight. Συμπεριλάβετε επίσης τις επιλογές Εισόδου και εξόδου για τη διαδρομή WASB. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και παραμέτρους στην ενότητα Για προχωρημένους.

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή του τύπου ροής για το σύμπλεγμα HDInsight.

Αναφορά ιδιοτήτων

Ιδιότητα Περιγραφή Απαιτείται
type Για τη δραστηριότητα ροής Hadoop, ο τύπος δραστηριότητας είναι HDInsightStreaming Όχι
χάρτης Καθορίζει το όνομα του εκτελέσιμου αρχείου χάρτη Όχι
Μειωτήρα Καθορίζει το όνομα του εκτελέσιμου αρχείου του μειωτή Όχι
Συνδυαστή Καθορίζει το όνομα του εκτελέσιμου αρχείου συνδυασμού Όχι
σύνδεση αρχείου Αναφορά σε μια συνδεδεμένη υπηρεσία υπηρεσίας χώρου αποθήκευσης Azure που χρησιμοποιείται για την αποθήκευση των προγραμμάτων Mapper, Combiner και Reducer που θα εκτελεστούν. Όχι
Μόνο χώρος αποθήκευσης αντικειμένων blob Azure και συνδέσεις ADLS Gen2 υποστηρίζονται εδώ. Εάν δεν καθορίσετε αυτήν τη σύνδεση, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που ορίζεται στη σύνδεση HDInsight.
filePath Καταχωρήστε έναν πίνακα διαδρομής προς τα προγράμματα Mapper, Combiner και Reducer που είναι αποθηκευμένα στον Χώρο αποθήκευσης Azure που αναφέρεται από τη σύνδεση αρχείου. Όχι
input Καθορίζει τη διαδρομή WASB στο αρχείο εισόδου για το Mapper. Όχι
output Καθορίζει τη διαδρομή WASB στο αρχείο εξόδου για το Reducer. Όχι
getDebugInfo Καθορίζει πότε τα αρχεία καταγραφής αντιγράφονται στον χώρο αποθήκευσης Azure που χρησιμοποιείται από το σύμπλεγμα HDInsight (ή) που καθορίζεται από τη δέσμη ενεργειώνLinkedService. Όχι
Επιτρεπόμενες τιμές: Καμία, Πάντα ή Αποτυχία. Προεπιλεγμένη τιμή: Καμία.
Επιχειρήματα Καθορίζει έναν πίνακα ορισμάτων για μια εργασία Hadoop. Τα ορίσματα διαβιβάζονται ως ορίσματα γραμμής εντολών σε κάθε εργασία. Όχι
Ορίζει Καθορίστε παραμέτρους ως ζεύγη κλειδιού/τιμής για αναφορά εντός της δέσμης ενεργειών Hive. Όχι

Αποθήκευση και εκτέλεση ή προγραμματισμός της διοχέτευσης

Αφού ρυθμίσετε οποιεσδήποτε άλλες δραστηριότητες απαιτούνται για τη διοχέτευση, μεταβείτε στην Καρτέλα Αρχική στο επάνω μέρος του προγράμματος επεξεργασίας διοχέτευσης και επιλέξτε το κουμπί αποθήκευσης για να αποθηκεύσετε τη διοχέτευση. Επιλέξτε Εκτέλεση για να την εκτελέσετε απευθείας ή Χρονοδιάγραμμα για να την προγραμματίσετε. Μπορείτε, επίσης, να δείτε το ιστορικό εκτέλεσης εδώ ή να ρυθμίσετε άλλες ρυθμίσεις.

Στιγμιότυπο οθόνης που εμφανίζει την καρτέλα Αρχική του προγράμματος επεξεργασίας διοχέτευσης, με επισήμανση των κουμπιών Αποθήκευση, Εκτέλεση και Χρονοδιάγραμμα.

Παρακολούθηση εκτελέσεων διοχέτευσης