Μορφή Parquet στο Data Factory στο Microsoft Fabric
Αυτό το άρθρο περιγράφει τον τρόπο ρύθμισης παραμέτρων της μορφής Parquet στη διοχέτευση δεδομένων του Data Factory στο Microsoft Fabric.
Υποστηριζόμενες δυνατότητες
Η μορφή Parquet υποστηρίζεται για τις ακόλουθες δραστηριότητες και συνδέσεις ως πηγή και προορισμό.
Category | Σύνδεση/Δραστηριότητα |
---|---|
Υποστηριζόμενη σύνδεση | Amazon S3 |
Συμβατό με το Amazon S3 | |
Χώρος αποθήκευσης αντικειμένου Blob Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Αρχεία Azure | |
Σύστημα αρχείων | |
FTP | |
Χώρος αποθήκευσης Cloud Google | |
HTTP | |
Αρχεία Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Υποστηριζόμενη δραστηριότητα | Αντιγραφή δραστηριότητας (προέλευσης/προορισμού) |
Δραστηριότητα αναζήτησης | |
Δραστηριότητα GetMetadata | |
Διαγραφή δραστηριότητας |
Μορφή Parquet σε δραστηριότητα αντιγραφής
Για να ρυθμίσετε τη μορφή Parquet, επιλέξτε τη σύνδεσή σας στην προέλευση ή τον προορισμό της δραστηριότητας αντιγραφής διοχέτευσης δεδομένων και, στη συνέχεια, επιλέξτε Parquet στην αναπτυσσόμενη λίστα Μορφή αρχείου. Επιλέξτε Ρυθμίσεις για περαιτέρω ρύθμιση παραμέτρων αυτής της μορφής.
Μορφή Parquet ως προέλευση
Αφού επιλέξετε Ρυθμίσεις στην ενότητα Μορφή αρχείου, οι παρακάτω ιδιότητες εμφανίζονται στο αναδυόμενο παράθυρο διαλόγου Ρυθμίσεις μορφής αρχείου.
- Τύπος συμπίεσης: Επιλέξτε τον κωδικοποιητή συμπίεσης που χρησιμοποιείται για την ανάγνωση αρχείων Parquet στην αναπτυσσόμενη λίστα. Μπορείτε να επιλέξετε Κανένα, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)ή lz4hadoop.
Μορφή Parquet ως προορισμός
Αφού επιλέξετε Ρυθμίσεις, εμφανίζονται οι ακόλουθες ιδιότητες στο αναδυόμενο παράθυρο διαλόγου Ρυθμίσεις μορφής αρχείου.
Τύπος συμπίεσης: Επιλέξτε τον κωδικοποιητή συμπίεσης που χρησιμοποιείται για τη σύνταξη αρχείων Parquet στην αναπτυσσόμενη λίστα. Μπορείτε να επιλέξετε Κανένα, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)ή lz4hadoop.
Χρήση V-Order: Ενεργοποιήστε τη βελτιστοποίηση του χρόνου εγγραφής στη μορφή αρχείου parquet. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Βελτιστοποίηση πινάκων Delta Lake και V-Order. Είναι ενεργοποιημένη από προεπιλογή.
Στην περιοχή Ρυθμίσεις για προχωρημένους στην καρτέλα Προορισμός , εμφανίζονται οι ακόλουθες ιδιότητες που σχετίζονται με τη μορφή Parquet.
- Μέγιστος αριθμός γραμμών ανά αρχείο: Κατά την εγγραφή δεδομένων σε έναν φάκελο, μπορείτε να επιλέξετε να κάνετε εγγραφή σε πολλά αρχεία και να καθορίσετε τις μέγιστες γραμμές ανά αρχείο. Καθορίστε τις μέγιστες γραμμές που θέλετε να συντάξετε ανά αρχείο.
- Πρόθημα ονόματος αρχείου: Ισχύει όταν ρυθμίζεται η επιλογή Μέγιστος αριθμός γραμμών ανά αρχείο . Καθορίστε το πρόθημα ονόματος αρχείου κατά την εγγραφή δεδομένων σε πολλαπλά αρχεία, με αποτέλεσμα αυτό το μοτίβο:
<fileNamePrefix>_00000.<fileExtension>
. Εάν δεν καθοριστεί, δημιουργείται αυτόματα το πρόθεμα ονόματος αρχείου. Αυτή η ιδιότητα δεν ισχύει όταν η προέλευση είναι χώρος αποθήκευσης που βασίζεται σε αρχείο ή χώρο αποθήκευσης δεδομένων με δυνατότητα διαμερίσματος.
Σύνοψη πίνακα
Parquet ως πηγή
Οι παρακάτω ιδιότητες υποστηρίζονται στην αντιγραφή δραστηριότητας Ενότητα προέλευσης όταν χρησιμοποιείτε τη μορφή Parquet.
Ονομασία | Περιγραφή | Τιμή | Απαραίτητο | Ιδιότητα δέσμης ενεργειών JSON |
---|---|---|---|---|
Μορφή αρχείου | Η μορφή αρχείου που θέλετε να χρησιμοποιήσετε. | Παρκέ | Όχι | τύπος (στην περιοχή datasetSettings ):Παρκέ |
Τύπος συμπίεσης | Ο κωδικοποιητής συμπίεσης που χρησιμοποιείται για την ανάγνωση των αρχείων Parquet. | Επιλέξτε τα εξής: Κανένας gzip (.gz) Ζωηρός lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Όχι | compressionCodec: gzip Ζωηρός lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet ως προορισμός
Οι παρακάτω ιδιότητες υποστηρίζονται στην ενότητα αντιγραφή δραστηριότητας Προορισμός όταν χρησιμοποιείτε τη μορφή Parquet.
Ονομασία | Περιγραφή | Τιμή | Απαραίτητο | Ιδιότητα δέσμης ενεργειών JSON |
---|---|---|---|---|
Μορφή αρχείου | Η μορφή αρχείου που θέλετε να χρησιμοποιήσετε. | Παρκέ | Όχι | τύπος (στην περιοχή datasetSettings ):Παρκέ |
Χρήση σειράς V | Βελτιστοποίηση χρόνου εγγραφής στη μορφή αρχείου parquet. | επιλεγμένο ή μη επιλεγμένο | Όχι | enableVertiParquet |
Τύπος συμπίεσης | Ο κωδικοποιητής συμπίεσης που χρησιμοποιείται για τη σύνταξη αρχείων Parquet. | Επιλέξτε τα εξής: Κανένας gzip (.gz) Ζωηρός lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Όχι | compressionCodec: gzip Ζωηρός lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Μέγιστος αριθμός γραμμών ανά αρχείο | Κατά την εγγραφή δεδομένων σε έναν φάκελο, μπορείτε να επιλέξετε να γράψετε σε πολλά αρχεία και να καθορίσετε τις μέγιστες γραμμές ανά αρχείο. Καθορίστε τις μέγιστες γραμμές που θέλετε να συντάξετε ανά αρχείο. | <οι μέγιστες γραμμές ανά αρχείο> | Όχι | maxRowsPerFile |
Πρόθημα ονόματος αρχείου | Ισχύει όταν ρυθμίζονται οι παράμετροι της ρύθμισης Μέγιστος αριθμός γραμμών ανά αρχείο . Καθορίστε το πρόθημα ονόματος αρχείου κατά την εγγραφή δεδομένων σε πολλαπλά αρχεία, με αποτέλεσμα αυτό το μοτίβο: <fileNamePrefix>_00000.<fileExtension> . Εάν δεν καθοριστεί, δημιουργείται αυτόματα το πρόθεμα ονόματος αρχείου. Αυτή η ιδιότητα δεν ισχύει όταν η προέλευση είναι χώρος αποθήκευσης που βασίζεται σε αρχείο ή χώρο αποθήκευσης δεδομένων με δυνατότητα διαμερίσματος. |
<το πρόθημα ονόματος αρχείου> | Όχι | fileNamePrefix |