Μετασχηματισμός δεδομένων με την εκτέλεση μιας δραστηριότητας Azure HDInsight
Η δραστηριότητα Azure HDInsight στο Data Factory για το Microsoft Fabric σάς επιτρέπει να οργανώσετε τους ακόλουθους τύπους εργασίας Azure HDInsight:
- Εκτέλεση ερωτημάτων Hive
- Κλήση προγράμματος MapReduce
- Εκτέλεση ερωτημάτων χοίρων
- Εκτέλεση προγράμματος Spark
- Εκτέλεση προγράμματος Hadoop Stream
Αυτό το άρθρο παρέχει μια αναλυτική παρουσίαση βήμα προς βήμα που περιγράφει τον τρόπο δημιουργίας μιας δραστηριότητας Azure HDInsight χρησιμοποιώντας τη διασύνδεση Data Factory.
Προαπαιτούμενα στοιχεία
Για να ξεκινήσετε, πρέπει να συμπληρώσετε τις ακόλουθες προϋποθέσεις:
- Ένας λογαριασμός μισθωτή με ενεργή συνδρομή. Δημιουργήστε έναν λογαριασμό δωρεάν.
- Δημιουργείται ένας χώρος εργασίας.
Προσθήκη δραστηριότητας Azure HDInsight (HDI) σε διοχέτευση με περιβάλλον εργασίας χρήστη
Δημιουργήστε μια νέα διοχέτευση δεδομένων στον χώρο εργασίας σας.
Κάντε αναζήτηση για Azure HDInsight από την κάρτα αρχικής οθόνης και επιλέξτε την ή επιλέξτε τη δραστηριότητα από τη γραμμή Δραστηριότητες για να την προσθέσετε στον καμβά διοχέτευσης.
Επιλέξτε τη νέα δραστηριότητα Azure HDInsight στον καμβά του προγράμματος επεξεργασίας διοχέτευσης, εάν δεν είναι ήδη επιλεγμένη.
Ανατρέξτε στις Οδηγίες γενικών ρυθμίσεων για να ρυθμίσετε τις παραμέτρους των επιλογών που βρίσκονται στην καρτέλα Γενικές ρυθμίσεις.
Ρύθμιση παραμέτρων του συμπλέγματος HDI
Επιλέξτε την καρτέλα Σύμπλεγμα HDI. Στη συνέχεια, μπορείτε να επιλέξετε μια υπάρχουσα ή να δημιουργήσετε μια νέα σύνδεση HDInsight.
Για τη σύνδεση Πόρος, επιλέξτε τον Χώρο αποθήκευσης αντικειμένων blob Azure που αναφέρεται στο σύμπλεγμα Azure HDInsight. Μπορείτε να επιλέξετε ένα υπάρχον κατάστημα αντικειμένων Blob ή να δημιουργήσετε ένα νέο.
Καθορισμός ρυθμίσεων
Επιλέξτε την καρτέλα Ρυθμίσεις για να δείτε τις ρυθμίσεις για προχωρημένους για τη δραστηριότητα.
Όλες οι σύνθετες ιδιότητες συμπλέγματος και οι δυναμικές παραστάσεις που υποστηρίζονται στη συνδεδεμένη υπηρεσία AZure Data Factory και Synapse Analytics HDInsight υποστηρίζονται πλέον επίσης και στη δραστηριότητα Azure HDInsight για το Data Factory στο Microsoft Fabric, στην ενότητα Για προχωρημένους στο περιβάλλον εργασίας χρήστη. Όλες αυτές οι ιδιότητες υποστηρίζουν εύχρηστες προσαρμοσμένες παραστάσεις με δυναμικό περιεχόμενο.
Τύπος συμπλέγματος
Για να ρυθμίσετε τις παραμέτρους για το σύμπλεγμα HDInsight, επιλέξτε πρώτα τον τύπο του από τις διαθέσιμες επιλογές, όπως Hive, Μείωση χάρτη, Χοίρος, Σπινθήρας και Ροή.
Hive
Εάν επιλέξετε Hive για Type, η δραστηριότητα εκτελεί ένα ερώτημα Hive. Μπορείτε προαιρετικά να καθορίσετε τη σύνδεση Δέσμη ενεργειών που αναφέρεται σε έναν λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Hive. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων στην ενότητα Για προχωρημένους , πληροφορίες εντοπισμού σφαλμάτων, Χρονικό όριο ερωτήματος, Ορίσματα, Παράμετροι και Μεταβλητές.
Μείωση χάρτη
Εάν επιλέξετε Χάρτης Μείωση για τύπο, η δραστηριότητα καλεί ένα πρόγραμμα Μείωση χάρτη. Μπορείτε προαιρετικά να καθορίσετε στη σύνδεση Jar μια αναφορά σε έναν λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Map Reduce. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε το Όνομα κλάσης και τη διαδρομή Αρχείου που θα εκτελεστούν στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες λεπτομέρειες ρύθμισης παραμέτρων, όπως εισαγωγή βιβλιοθηκών Jar, πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και παραμέτρους στην ενότητα Για προχωρημένους .
Γουρούνι
Εάν επιλέξετε Χοίρος για τύπο, η δραστηριότητα καλεί ένα ερώτημα χοίρου. Μπορείτε προαιρετικά να καθορίσετε τη ρύθμιση σύνδεσης Δέσμη ενεργειών που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο χοίρου. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως πληροφορίες εντοπισμού σφαλμάτων, ορίσματα, παραμέτρους και μεταβλητές στην ενότητα Για προχωρημένους .
Spark
Εάν επιλέξετε Spark ως Type, η δραστηριότητα καλεί ένα πρόγραμμα Spark. Επιλέξτε είτε Δέσμη ενεργειών, είτε Jar για τον τύπο Spark. Προαιρετικά, μπορείτε να καθορίσετε τη σύνδεση Εργασία που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο Spark. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο που θα εκτελεστεί στο Azure HDInsight. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως όνομα κλάσης, χρήστη διακομιστή μεσολάβησης, πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και ρύθμιση παραμέτρων spark στην ενότητα Για προχωρημένους.
Ροής
Εάν επιλέξετε Ροή για τύπο, η δραστηριότητα καλεί ένα πρόγραμμα ροής. Καθορίστε τα ονόματα Mapper και Reducer και μπορείτε προαιρετικά να καθορίσετε τη σύνδεση Αρχείο που αναφέρεται στον λογαριασμό χώρου αποθήκευσης που περιέχει τον τύπο ροής. Από προεπιλογή, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που καθορίσατε στην καρτέλα Σύμπλεγμα HDI. Πρέπει να καθορίσετε τη διαδρομή Αρχείο για το Mapper και τη διαδρομή αρχείου για Το Reducer που θα εκτελεστεί στο Azure HDInsight. Συμπεριλάβετε επίσης τις επιλογές Εισόδου και εξόδου για τη διαδρομή WASB. Προαιρετικά, μπορείτε να καθορίσετε περισσότερες ρυθμίσεις παραμέτρων, όπως πληροφορίες εντοπισμού σφαλμάτων, ορίσματα και παραμέτρους στην ενότητα Για προχωρημένους.
Αναφορά ιδιοτήτων
Ιδιότητα | Περιγραφή | Απαιτείται |
---|---|---|
type | Για τη δραστηριότητα ροής Hadoop, ο τύπος δραστηριότητας είναι HDInsightStreaming | Όχι |
χάρτης | Καθορίζει το όνομα του εκτελέσιμου αρχείου χάρτη | Όχι |
Μειωτήρα | Καθορίζει το όνομα του εκτελέσιμου αρχείου του μειωτή | Όχι |
Συνδυαστή | Καθορίζει το όνομα του εκτελέσιμου αρχείου συνδυασμού | Όχι |
σύνδεση αρχείου | Αναφορά σε μια συνδεδεμένη υπηρεσία υπηρεσίας χώρου αποθήκευσης Azure που χρησιμοποιείται για την αποθήκευση των προγραμμάτων Mapper, Combiner και Reducer που θα εκτελεστούν. | Όχι |
Μόνο χώρος αποθήκευσης αντικειμένων blob Azure και συνδέσεις ADLS Gen2 υποστηρίζονται εδώ. Εάν δεν καθορίσετε αυτήν τη σύνδεση, χρησιμοποιείται η σύνδεση χώρου αποθήκευσης που ορίζεται στη σύνδεση HDInsight. | ||
filePath | Καταχωρήστε έναν πίνακα διαδρομής προς τα προγράμματα Mapper, Combiner και Reducer που είναι αποθηκευμένα στον Χώρο αποθήκευσης Azure που αναφέρεται από τη σύνδεση αρχείου. | Όχι |
input | Καθορίζει τη διαδρομή WASB στο αρχείο εισόδου για το Mapper. | Όχι |
output | Καθορίζει τη διαδρομή WASB στο αρχείο εξόδου για το Reducer. | Όχι |
getDebugInfo | Καθορίζει πότε τα αρχεία καταγραφής αντιγράφονται στον χώρο αποθήκευσης Azure που χρησιμοποιείται από το σύμπλεγμα HDInsight (ή) που καθορίζεται από τη δέσμη ενεργειώνLinkedService. | Όχι |
Επιτρεπόμενες τιμές: Καμία, Πάντα ή Αποτυχία. Προεπιλεγμένη τιμή: Καμία. | ||
Επιχειρήματα | Καθορίζει έναν πίνακα ορισμάτων για μια εργασία Hadoop. Τα ορίσματα διαβιβάζονται ως ορίσματα γραμμής εντολών σε κάθε εργασία. | Όχι |
Ορίζει | Καθορίστε παραμέτρους ως ζεύγη κλειδιού/τιμής για αναφορά εντός της δέσμης ενεργειών Hive. | Όχι |
Αποθήκευση και εκτέλεση ή προγραμματισμός της διοχέτευσης
Αφού ρυθμίσετε οποιεσδήποτε άλλες δραστηριότητες απαιτούνται για τη διοχέτευση, μεταβείτε στην Καρτέλα Αρχική στο επάνω μέρος του προγράμματος επεξεργασίας διοχέτευσης και επιλέξτε το κουμπί αποθήκευσης για να αποθηκεύσετε τη διοχέτευση. Επιλέξτε Εκτέλεση για να την εκτελέσετε απευθείας ή Χρονοδιάγραμμα για να την προγραμματίσετε. Μπορείτε, επίσης, να δείτε το ιστορικό εκτέλεσης εδώ ή να ρυθμίσετε άλλες ρυθμίσεις.