Κοινή χρήση μέσω


Μορφή Parquet στο Data Factory στο Microsoft Fabric

Αυτό το άρθρο περιγράφει τον τρόπο ρύθμισης παραμέτρων της μορφής Parquet στη διοχέτευση δεδομένων του Data Factory στο Microsoft Fabric.

Υποστηριζόμενες δυνατότητες

Η μορφή Parquet υποστηρίζεται για τις ακόλουθες δραστηριότητες και συνδέσεις ως πηγή και προορισμό.

Category Σύνδεση/Δραστηριότητα
Υποστηριζόμενη σύνδεση Amazon S3
Συμβατό με το Amazon S3
Χώρος αποθήκευσης αντικειμένου Blob Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Αρχεία Azure
Σύστημα αρχείων
FTP
Χώρος αποθήκευσης Cloud Google
HTTP
Αρχεία Lakehouse
Oracle Cloud Storage
SFTP
Υποστηριζόμενη δραστηριότητα Αντιγραφή δραστηριότητας (προέλευσης/προορισμού)
Δραστηριότητα αναζήτησης
Δραστηριότητα GetMetadata
Διαγραφή δραστηριότητας

Μορφή Parquet σε δραστηριότητα αντιγραφής

Για να ρυθμίσετε τη μορφή Parquet, επιλέξτε τη σύνδεσή σας στην προέλευση ή τον προορισμό της δραστηριότητας αντιγραφής διοχέτευσης δεδομένων και, στη συνέχεια, επιλέξτε Parquet στην αναπτυσσόμενη λίστα Μορφή αρχείου. Επιλέξτε Ρυθμίσεις για περαιτέρω ρύθμιση παραμέτρων αυτής της μορφής.

Στιγμιότυπο οθόνης που εμφανίζει τις ρυθμίσεις μορφής αρχείου.

Μορφή Parquet ως προέλευση

Αφού επιλέξετε Ρυθμίσεις στην ενότητα Μορφή αρχείου, οι παρακάτω ιδιότητες εμφανίζονται στο αναδυόμενο παράθυρο διαλόγου Ρυθμίσεις μορφής αρχείου.

Στιγμιότυπο οθόνης που εμφανίζει την προέλευση μορφής αρχείου parquet.

  • Τύπος συμπίεσης: Επιλέξτε τον κωδικοποιητή συμπίεσης που χρησιμοποιείται για την ανάγνωση αρχείων Parquet στην αναπτυσσόμενη λίστα. Μπορείτε να επιλέξετε Κανένα, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)ή lz4hadoop.

Μορφή Parquet ως προορισμός

Αφού επιλέξετε Ρυθμίσεις, εμφανίζονται οι ακόλουθες ιδιότητες στο αναδυόμενο παράθυρο διαλόγου Ρυθμίσεις μορφής αρχείου.

Στιγμιότυπο οθόνης που εμφανίζει τον προορισμό μορφής αρχείου parquet.

  • Τύπος συμπίεσης: Επιλέξτε τον κωδικοποιητή συμπίεσης που χρησιμοποιείται για τη σύνταξη αρχείων Parquet στην αναπτυσσόμενη λίστα. Μπορείτε να επιλέξετε Κανένα, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)ή lz4hadoop.

  • Χρήση V-Order: Ενεργοποιήστε τη βελτιστοποίηση του χρόνου εγγραφής στη μορφή αρχείου parquet. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Βελτιστοποίηση πινάκων Delta Lake και V-Order. Είναι ενεργοποιημένη από προεπιλογή.

Στην περιοχή Ρυθμίσεις για προχωρημένους στην καρτέλα Προορισμός , εμφανίζονται οι ακόλουθες ιδιότητες που σχετίζονται με τη μορφή Parquet.

  • Μέγιστος αριθμός γραμμών ανά αρχείο: Κατά την εγγραφή δεδομένων σε έναν φάκελο, μπορείτε να επιλέξετε να κάνετε εγγραφή σε πολλά αρχεία και να καθορίσετε τις μέγιστες γραμμές ανά αρχείο. Καθορίστε τις μέγιστες γραμμές που θέλετε να συντάξετε ανά αρχείο.
  • Πρόθημα ονόματος αρχείου: Ισχύει όταν ρυθμίζεται η επιλογή Μέγιστος αριθμός γραμμών ανά αρχείο . Καθορίστε το πρόθημα ονόματος αρχείου κατά την εγγραφή δεδομένων σε πολλαπλά αρχεία, με αποτέλεσμα αυτό το μοτίβο: <fileNamePrefix>_00000.<fileExtension>. Εάν δεν καθοριστεί, δημιουργείται αυτόματα το πρόθεμα ονόματος αρχείου. Αυτή η ιδιότητα δεν ισχύει όταν η προέλευση είναι χώρος αποθήκευσης που βασίζεται σε αρχείο ή χώρο αποθήκευσης δεδομένων με δυνατότητα διαμερίσματος.

Σύνοψη πίνακα

Parquet ως πηγή

Οι παρακάτω ιδιότητες υποστηρίζονται στην αντιγραφή δραστηριότητας Ενότητα προέλευσης όταν χρησιμοποιείτε τη μορφή Parquet.

Ονομασία Περιγραφή Τιμή Απαραίτητο Ιδιότητα δέσμης ενεργειών JSON
Μορφή αρχείου Η μορφή αρχείου που θέλετε να χρησιμοποιήσετε. Παρκέ Όχι τύπος (στην περιοχή datasetSettings):
Παρκέ
Τύπος συμπίεσης Ο κωδικοποιητής συμπίεσης που χρησιμοποιείται για την ανάγνωση των αρχείων Parquet. Επιλέξτε τα εξής:
Κανένας
gzip (.gz)
Ζωηρός
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Όχι compressionCodec:

gzip
Ζωηρός
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet ως προορισμός

Οι παρακάτω ιδιότητες υποστηρίζονται στην ενότητα αντιγραφή δραστηριότητας Προορισμός όταν χρησιμοποιείτε τη μορφή Parquet.

Ονομασία Περιγραφή Τιμή Απαραίτητο Ιδιότητα δέσμης ενεργειών JSON
Μορφή αρχείου Η μορφή αρχείου που θέλετε να χρησιμοποιήσετε. Παρκέ Όχι τύπος (στην περιοχή datasetSettings):
Παρκέ
Χρήση σειράς V Βελτιστοποίηση χρόνου εγγραφής στη μορφή αρχείου parquet. επιλεγμένο ή μη επιλεγμένο Όχι enableVertiParquet
Τύπος συμπίεσης Ο κωδικοποιητής συμπίεσης που χρησιμοποιείται για τη σύνταξη αρχείων Parquet. Επιλέξτε τα εξής:
Κανένας
gzip (.gz)
Ζωηρός
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Όχι compressionCodec:

gzip
Ζωηρός
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Μέγιστος αριθμός γραμμών ανά αρχείο Κατά την εγγραφή δεδομένων σε έναν φάκελο, μπορείτε να επιλέξετε να γράψετε σε πολλά αρχεία και να καθορίσετε τις μέγιστες γραμμές ανά αρχείο. Καθορίστε τις μέγιστες γραμμές που θέλετε να συντάξετε ανά αρχείο. <οι μέγιστες γραμμές ανά αρχείο> Όχι maxRowsPerFile
Πρόθημα ονόματος αρχείου Ισχύει όταν ρυθμίζονται οι παράμετροι της ρύθμισης Μέγιστος αριθμός γραμμών ανά αρχείο . Καθορίστε το πρόθημα ονόματος αρχείου κατά την εγγραφή δεδομένων σε πολλαπλά αρχεία, με αποτέλεσμα αυτό το μοτίβο: <fileNamePrefix>_00000.<fileExtension>. Εάν δεν καθοριστεί, δημιουργείται αυτόματα το πρόθεμα ονόματος αρχείου. Αυτή η ιδιότητα δεν ισχύει όταν η προέλευση είναι χώρος αποθήκευσης που βασίζεται σε αρχείο ή χώρο αποθήκευσης δεδομένων με δυνατότητα διαμερίσματος. <το πρόθημα ονόματος αρχείου> Όχι fileNamePrefix