Parquet-format i Data Factory i Microsoft Fabric
Den här artikeln beskriver hur du konfigurerar Parquet-format i datapipelinen för Data Factory i Microsoft Fabric.
Funktioner som stöds
Parquet-format stöds för följande aktiviteter och anslutningsappar som källa och mål.
Kategori | Anslutningsapp/aktivitet |
---|---|
Anslutningsprogram som stöds | Amazon S3 |
Amazon S3-kompatibel | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Filsystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-filer | |
Oracle Cloud Storage | |
SFTP | |
Aktivitet som stöds | aktiviteten Kopiera (källa/mål) |
Sökningsaktivitet | |
GetMetadata-aktivitet | |
Ta bort aktivitet |
Parquet-format i kopieringsaktivitet
Om du vill konfigurera Parquet-format väljer du din anslutning i källan eller målet för kopieringsaktiviteten för datapipelinen och väljer sedan Parquet i listrutan i Filformat. Välj Inställningar för ytterligare konfiguration av det här formatet.
Parquet-format som källa
När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.
- Komprimeringstyp: Välj den komprimeringskodc som används för att läsa Parquet-filer i listrutan. Du kan välja mellan None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.
Parquet-format som mål
När du har valt Inställningar visas följande egenskaper i dialogrutan inställningar för filformat i popup-fönstret.
Komprimeringstyp: Välj den komprimeringskodc som används för att skriva Parquet-filer i listrutan. Du kan välja mellan None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.
Använd V-Order: Aktivera en optimering av skrivtiden till parquet-filformatet. Mer information finns i Delta Lake-tabelloptimering och V-order. Den är aktiverad som standard.
Under Avancerade inställningar på fliken Mål visas följande parquet-formatrelaterade egenskaper.
- Maximalt antal rader per fil: När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. Ange maximalt antal rader som du vill skriva per fil.
- Filnamnsprefix: Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret:
<fileNamePrefix>_00000.<fileExtension>
. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är ett filbaserat arkiv eller ett partitionsalternativ aktiverat datalager.
Tabellsammanfattning
Parquet som källa
Följande egenskaper stöds i avsnittet Käll för kopieringsaktivitet när du använder Parquet-formatet.
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Det filformat som du vill använda. | Parkettgolv | Ja | typ (under datasetSettings ):Parquet |
Komprimeringstyp | Komprimeringskodcen som används för att läsa Parquet-filer. | Välj mellan: None gzip (.gz) kvick lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Nej | compressionCodec: gzip kvick lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet som mål
Följande egenskaper stöds i avsnittet Mål för kopieringsaktivitet när du använder Parquet-formatet.
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Det filformat som du vill använda. | Parkettgolv | Ja | typ (under datasetSettings ):Parquet |
Använda V-order | En optimering av skrivtiden till parquet-filformatet. | markerad eller omarkerad | Nej | enableVertiParquet |
Komprimeringstyp | Komprimeringskodcen som används för att skriva Parquet-filer. | Välj mellan: None gzip (.gz) kvick lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Nej | compressionCodec: gzip kvick lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Maximalt antal rader per fil | När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. Ange maximalt antal rader som du vill skriva per fil. | <maximalt antal rader per fil> | Nej | maxRowsPerFile |
Filnamnsprefix | Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension> . Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är ett filbaserat arkiv eller ett partitionsalternativ aktiverat datalager. |
<ditt filnamnsprefix> | Nej | fileNamePrefix |