Κοινή χρήση μέσω


Γρήγορη αντιγραφή στο Dataflows Gen2

Αυτό το άρθρο περιγράφει τη δυνατότητα γρήγορης αντιγραφής στο Dataflows Gen2 for Data Factory στο Microsoft Fabric. Οι ροές δεδομένων βοηθούν στην πρόσληψη και τον μετασχηματισμό δεδομένων. Με την εισαγωγή της κλιμάκωσης ροής δεδομένων με την υπολογιστική λειτουργία SQL DW, μπορείτε να μετασχηματίζετε τα δεδομένα σας σε κλίμακα. Ωστόσο, τα δεδομένα σας πρέπει πρώτα να προσλάβετε. Με την εισαγωγή της γρήγορης αντιγραφής, μπορείτε να προσλάβετε terabyte δεδομένων με την εύκολη εμπειρία των ροών δεδομένων, αλλά με το κλιμακώσιμο παρασκήνιο της διοχέτευσης Αντιγραφή δραστηριότητας.

Μετά την ενεργοποίηση αυτής της δυνατότητας, οι ροές δεδομένων αλλάζουν αυτόματα το παρασκήνιο όταν το μέγεθος των δεδομένων υπερβαίνει ένα συγκεκριμένο όριο, χωρίς να χρειάζεται να αλλάξετε τίποτα κατά τη διάρκεια της σύνταξης των ροών δεδομένων. Μετά την ανανέωση μιας ροής δεδομένων, μπορείτε να ελέγξετε το ιστορικό ανανέωσης για να δείτε εάν χρησιμοποιήθηκε γρήγορη αντιγραφή κατά την εκτέλεση, εξετάζοντας τον τύπο μηχανισμού που εμφανίζεται εκεί.

Με ενεργοποιημένη την επιλογή Να απαιτείται γρήγορη αντιγραφή, η ανανέωση ροής δεδομένων ακυρώνεται εάν δεν χρησιμοποιηθεί γρήγορη αντιγραφή. Αυτό σας βοηθά να αποφύγετε την αναμονή για να συνεχιστεί το χρονικό όριο ανανέωσης. Αυτή η συμπεριφορά μπορεί επίσης να είναι χρήσιμη σε μια περίοδο λειτουργίας εντοπισμού σφαλμάτων για να ελέγξετε τη συμπεριφορά της ροής δεδομένων με τα δεδομένα σας, μειώνοντας παράλληλα τον χρόνο αναμονής. Χρησιμοποιώντας τις ενδείξεις γρήγορης αντιγραφής στο τμήμα παραθύρου βήματα ερωτήματος, μπορείτε εύκολα να ελέγξετε εάν το ερώτημά σας μπορεί να εκτελεστεί με γρήγορη αντιγραφή.

Στιγμιότυπο οθόνης που εμφανίζει το σημείο όπου εμφανίζεται η ένδειξη γρήγορης αντιγραφής στο τμήμα παραθύρου

Προαπαιτούμενα στοιχεία

  • Πρέπει να έχετε χωρητικότητα Fabric.
  • Για τα δεδομένα αρχείων, τα αρχεία είναι σε .csv μορφή ή parquet τουλάχιστον 100 MB και είναι αποθηκευμένα σε ένα λογαριασμό χώρου αποθήκευσης Azure Data Lake Storage (ADLS) Gen2 ή σε έναν λογαριασμό χώρου αποθήκευσης αντικειμένων Blob.
  • Για βάσεις δεδομένων, συμπεριλαμβανομένων των Azure SQL DB και PostgreSQL, 5 εκατομμύρια γραμμές ή περισσότερα δεδομένα στην προέλευση δεδομένων.

Σημείωμα

Μπορείτε να παρακάμψετε το όριο για επιβολή γρήγορης αντιγραφής επιλέγοντας τη ρύθμιση "Απαίτηση γρήγορης αντιγραφής".

Υποστήριξη συνδέσεων

Η δυνατότητα γρήγορης αντιγραφής υποστηρίζεται προς το παρόν για τις παρακάτω συνδέσεις Dataflow Gen2:

  • ADLS Gen2
  • Χώρος αποθήκευσης αντικειμένου Blob
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • SQL Server εσωτερικής εγκατάστασης
  • Αποθήκη
  • Oracle
  • Snowflake

Η δραστηριότητα αντιγραφής υποστηρίζει μόνο λίγους μετασχηματισμούς κατά τη σύνδεση σε μια προέλευση αρχείου:

  • Συνδυασμός αρχείων
  • Επιλογή στηλών
  • Αλλαγή τύπων δεδομένων
  • Μετονομασία στήλης
  • Κατάργηση στήλης

Εξακολουθείτε να μπορείτε να εφαρμόσετε άλλους μετασχηματισμούς διαιρώντας τα βήματα πρόσληψης και μετασχηματισμού σε ξεχωριστά ερωτήματα. Το πρώτο ερώτημα στην πραγματικότητα ανακτά τα δεδομένα και το δεύτερο ερώτημα αναφέρει τα αποτελέσματά του, έτσι ώστε να μπορεί να χρησιμοποιηθεί υπολογιστική λειτουργία DW. Για προελεύσεις SQL, υποστηρίζεται κάθε μετασχηματισμός που αποτελεί μέρος του εγγενούς ερωτήματος.

Όταν φορτώνετε απευθείας το ερώτημα σε έναν προορισμό εξόδου, προς το παρόν υποστηρίζονται μόνο προορισμοί Lakehouse. Εάν θέλετε να χρησιμοποιήσετε έναν άλλο προορισμό εξόδου, μπορείτε να δημιουργήσετε πρώτα ένα στάδιο του ερωτήματος και να το αναφέρετε αργότερα.

Τρόπος χρήσης γρήγορης αντιγραφής

  1. Μεταβείτε στο κατάλληλο τελικό σημείο Fabric.

  2. Μεταβείτε σε έναν premium χώρο εργασίας και δημιουργήστε μια ροή δεδομένων Gen2.

  3. Στην Αρχική καρτέλα της νέας ροής δεδομένων, επιλέξτε Επιλογές:

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε τις Επιλογές για ροές δεδομένων Gen2 στην Αρχική καρτέλα.

  4. Στη συνέχεια, επιλέξτε την καρτέλα Κλίμακα στο παράθυρο διαλόγου Επιλογές και επιλέξτε το πλαίσιο ελέγχου Να επιτρέπεται η χρήση συνδέσεων γρήγορης αντιγραφής για να ενεργοποιήσετε τη γρήγορη αντιγραφή. Στη συνέχεια, κλείστε το παράθυρο διαλόγου Επιλογές.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να ενεργοποιήσετε τη γρήγορη αντιγραφή στην καρτέλα Κλίμακα του παραθύρου διαλόγου

  5. Επιλέξτε Λήψη δεδομένων και, στη συνέχεια, επιλέξτε την προέλευση ADLS Gen2 και συμπληρώστε τις λεπτομέρειες για το κοντέινερ.

  6. Χρησιμοποιήστε τη λειτουργία Συνδυασμός αρχείων .

    Στιγμιότυπο οθόνης που εμφανίζει το παράθυρο

  7. Για να εξασφαλίσετε τη γρήγορη αντιγραφή, εφαρμόστε μόνο μετασχηματισμούς που παρατίθενται στην ενότητα υποστήριξης σύνδεσης αυτού του άρθρου. Εάν θέλετε να εφαρμόσετε περισσότερους μετασχηματισμούς, οργανώστε πρώτα τα δεδομένα και αναφέρετε το ερώτημα αργότερα. Πραγματοποιήστε άλλους μετασχηματισμούς στο ερώτημα που αναφέρεται.

  8. (Προαιρετικό) Μπορείτε να ορίσετε την επιλογή Να απαιτείται γρήγορη αντιγραφή για το ερώτημα κάνοντας δεξί κλικ σε αυτό για να επιλέξετε και να ενεργοποιήσετε αυτή την επιλογή.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε την επιλογή

  9. (Προαιρετικό) Προς το παρόν, μπορείτε μόνο να ρυθμίσετε τις παραμέτρους ενός Lakehouse ως προορισμού εξόδου. Για οποιονδήποτε άλλο προορισμό, οργανώστε το ερώτημα και αναφέρετε το αργότερα σε ένα άλλο ερώτημα, όπου μπορείτε να εξαγάγετε σε οποιαδήποτε προέλευση.

  10. Ελέγξτε τις ενδείξεις γρήγορης αντιγραφής για να δείτε εάν το ερώτημά σας μπορεί να εκτελεστεί με γρήγορη αντιγραφή. Σε αυτή την περίπτωση, ο τύπος μηχανισμού εμφανίζει αντιγραφήΔραστηριότητα.

    Στιγμιότυπο οθόνης που εμφανίζει τις λεπτομέρειες ανανέωσης που υποδεικνύουν τη χρήση της μηχανής copyActivity διοχέτευσης.

  11. Δημοσιεύστε τη ροή δεδομένων.

  12. Ελέγξτε μετά την ολοκλήρωση της ανανέωσης για να επιβεβαιώσετε τη χρήση της γρήγορης αντιγραφής.

Πώς μπορείτε να διαιρέσετε το ερώτημά σας για να αξιοποιήσετε τη γρήγορη αντιγραφή

Για βέλτιστες επιδόσεις κατά την επεξεργασία μεγάλων όγκων δεδομένων με το Dataflow Gen2, χρησιμοποιήστε τη δυνατότητα Γρήγορη αντιγραφή για την πρώτη πρόσληψη δεδομένων σε προεργασία και, στη συνέχεια, μετασχηματίστε τα σε κλίμακα με υπολογιστικό sql DW. Αυτή η προσέγγιση βελτιώνει σημαντικά τις επιδόσεις από άκρο σε άκρο.

Για να υλοποιηθεί αυτό, οι δείκτες γρήγορης αντιγραφής μπορούν να σας καθοδηγήσουν να διαιρέσετε το ερώτημα σε δύο μέρη: πρόσληψη δεδομένων για προεργασία και μετασχηματισμός μεγάλης κλίμακας με υπολογισμό SQL DW. Σας συνιστούμε να προωθήσετε όσο το δυνατόν μεγαλύτερο μέρος της αξιολόγησης ενός ερωτήματος στη Γρήγορη αντιγραφή που μπορεί να χρησιμοποιηθεί για την πρόσληψη των δεδομένων σας. Όταν οι ενδείξεις γρήγορης αντιγραφής λένε ότι τα υπόλοιπα βήματα δεν μπορούν να εκτελεστούν από τη γρήγορη αντιγραφή, μπορείτε να διαιρέσετε το υπόλοιπο ερώτημα με ενεργοποιημένη τη προεργασία.

Δείκτες διαγνωστικών βήματος

Δείκτης Εικόνα Περιγραφή
Αυτό το βήμα θα αξιολογηθεί με γρήγορη αντιγραφή Η ένδειξη Γρήγορη αντιγραφή σάς ενημερώνει ότι το ερώτημα μέχρι αυτό το βήμα υποστηρίζει γρήγορη αντιγραφή.
Αυτό το βήμα δεν υποστηρίζεται από τη γρήγορη αντιγραφή Η ένδειξη Γρήγορη αντιγραφή δείχνει ότι αυτό το βήμα δεν υποστηρίζει γρήγορη αντιγραφή.
Ένα ή περισσότερα βήματα στο ερώτημά σας δεν υποστηρίζονται από γρήγορες ερωτημάτων Η ένδειξη Γρήγορη αντιγραφή δείχνει ότι ορισμένα βήματα σε αυτό το ερώτημα υποστηρίζουν γρήγορη αντιγραφή, ενώ άλλα όχι. Για να βελτιστοποιήσετε, διαιρέστε το ερώτημα: κίτρινα βήματα (πιθανώς υποστηρίζονται από τη γρήγορη αντιγραφή) και κόκκινα βήματα (δεν υποστηρίζονται).

Αναλυτικές οδηγίες

Αφού ολοκληρώσετε τη λογική μετασχηματισμού δεδομένων στο Dataflow Gen2, η ένδειξη γρήγορης αντιγραφής αξιολογεί κάθε βήμα για να προσδιορίσει πόσα βήματα μπορούν να αξιοποιήσουν τη γρήγορη αντιγραφή για καλύτερες επιδόσεις.

Στο παρακάτω παράδειγμα, το τελευταίο βήμα δείχνει κόκκινο, υποδεικνύοντας ότι το βήμα με Ομαδοποίηση κατά δεν υποστηρίζεται από τη Γρήγορη αντιγραφή. Ωστόσο, όλα τα προηγούμενα βήματα που δείχνουν κίτρινο μπορεί πιθανώς να υποστηρίζονται από τη Γρήγορη αντιγραφή.

Στιγμιότυπο οθόνης που εμφανίζει το πρώτο ερώτημα.

Προς το παρόν, εάν δημοσιεύσετε και εκτελέσετε απευθείας τη ροή δεδομένων Gen2, δεν θα χρησιμοποιήσει τη μηχανή γρήγορης αντιγραφής για να φορτώσει τα δεδομένα σας ως την παρακάτω εικόνα:

Στιγμιότυπο οθόνης που εμφανίζει το αποτέλεσμα χωρίς ενεργοποιημένη τη γρήγορη αντιγραφή.

Για να χρησιμοποιήσετε τη μηχανή γρήγορης αντιγραφής και να βελτιώσετε τις επιδόσεις του Dataflow Gen2, μπορείτε να διαιρέσετε το ερώτημά σας σε δύο μέρη: πρόσληψη δεδομένων σε προεργασία και μετασχηματισμό μεγάλης κλίμακας με υπολογιστικό sql DW, ως εξής:

  1. Καταργήστε τους μετασχηματισμούς (εμφανίζοντας κόκκινο) που δεν υποστηρίζονται από τη δυνατότητα Γρήγορη αντιγραφή, μαζί με τον προορισμό (εάν έχει οριστεί).

  2. Η ένδειξη Γρήγορη αντιγραφή εμφανίζει τώρα πράσινο χρώμα για τα υπόλοιπα βήματα, το οποίο σημαίνει ότι το πρώτο ερώτημά σας μπορεί να αξιοποιήσει τη γρήγορη αντιγραφή για καλύτερες επιδόσεις.

    Επιλέξτε Ενέργεια για το πρώτο ερώτημά σας και, στη συνέχεια, επιλέξτε Ενεργοποίηση προεργασίας και αναφοράς.

    Στιγμιότυπο οθόνης που εμφανίζει το δεύτερο ερώτημα.

  3. Σε ένα νέο ερώτημα στο οποίο γίνεται αναφορά, διαβάστε τον μετασχηματισμό "Ομαδοποίηση κατά" και τον προορισμό (εάν υπάρχει).

    Στιγμιότυπο οθόνης που εμφανίζει το τρίτο ερώτημα.

  4. Δημοσιεύστε και ανανεώστε τη ροή δεδομένων Gen2. Τώρα θα δείτε δύο ερωτήματα στο Dataflow Gen2 σας και η συνολική διάρκεια μειώνεται σε μεγάλο βαθμό.

    • Το πρώτο ερώτημα λαμβάνει δεδομένα κατά την προεργασία χρησιμοποιώντας γρήγορη αντιγραφή.

    • Το δεύτερο ερώτημα εκτελεί μετασχηματισμούς μεγάλης κλίμακας με χρήση υπολογιστικής λειτουργίας SQL DW.

      Στιγμιότυπο οθόνης που εμφανίζει το αποτέλεσμα του ερωτήματος.

    Το πρώτο ερώτημα:

    Στιγμιότυπο οθόνης που εμφανίζει το αποτέλεσμα της πρόσληψης.

    Το δεύτερο ερώτημα:

    Στιγμιότυπο οθόνης που εμφανίζει το αποτέλεσμα του μετασχηματισμού.

Γνωστοί περιορισμοί

  1. Απαιτείται μια έκδοση πύλης δεδομένων εσωτερικής εγκατάστασης 3000.214.2 ή νεότερη για την υποστήριξη της δυνατότητας Γρήγορη αντιγραφή.
  2. Η πύλη VNet δεν υποστηρίζεται.
  3. Η εγγραφή δεδομένων σε έναν υπάρχοντα πίνακα στο Lakehouse δεν υποστηρίζεται.
  4. Το σταθερό σχήμα δεν υποστηρίζεται.