Parkettformat i Data Factory i Microsoft Fabric
Denne artikkelen beskriver hvordan du konfigurerer Parquet-format i datasamlebåndet til Data Factory i Microsoft Fabric.
Støttede funksjoner
Parquet-format støttes for følgende aktiviteter og koblinger som kilde og mål.
Kategori | Kobling/aktivitet |
---|---|
Støttet kobling | Amazon S3 |
Amazon S3-kompatibel | |
Azure Blob-lagring | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Filsystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Støttet aktivitet | Kopier aktivitet (kilde/mål) |
Oppslagsaktivitet | |
GetMetadata-aktivitet | |
Slett aktivitet |
Parquet-format i kopieringsaktivitet
Hvis du vil konfigurere Parquet-format, velger du tilkoblingen i kilden eller målet for datasamlebåndkopiaktiviteten, og deretter velger du Parkett i rullegardinlisten i Filformat. Velg Innstillinger for videre konfigurasjon av dette formatet.
Parquet-format som kilde
Når du har valgt Innstillinger i Filformat-delen, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
- Komprimeringstype: Velg komprimeringskodek som brukes til å lese Parquet-filer i rullegardinlisten. Du kan velge mellom Ingen, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), eller lz4hadoop.
Parquet-format som mål
Når du har valgt Innstillinger, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
Komprimeringstype: Velg komprimeringskodecen som brukes til å skrive Parquet-filer i rullegardinlisten. Du kan velge mellom Ingen, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), eller lz4hadoop.
Bruk V-rekkefølge: Aktiver en skrivetidsoptimalisering til parkettfilformatet. Hvis du vil ha mer informasjon, kan du se Tabelloptimalisering for Delta Lake og V-order. Den er aktivert som standard.
Under Avanserte innstillinger på Mål-fanen vises følgende parquet-formatrelaterte egenskaper.
- Maksimalt antall rader per fil: Når du skriver data inn i en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. Angi maksimalt antall rader du vil skrive per fil.
- Filnavnprefiks: Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret:
<fileNamePrefix>_00000.<fileExtension>
. Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilden er et filbasert lager eller et partisjonsalternativ aktivert datalager.
Tabellsammendrag
Parquet som kilde
Følgende egenskaper støttes i delen kilde for kopieringsaktivitet når du bruker Parquet-formatet.
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Parkett | Ja | type (under datasetSettings ):Parquet |
Komprimeringstype | Komprimeringskodecen som brukes til å lese Parquet-filer. | Velg blant: None gzip (.gz) irritabel lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (BZ2) lz4hadoop |
No | compressionCodec: gzip irritabel lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet som mål
Følgende egenskaper støttes i måldelen for kopieringsaktivitet når du bruker Parquet-formatet.
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Parkett | Ja | type (under datasetSettings ):Parquet |
Bruk V-rekkefølge | En skrivetidsoptimalisering til parkettfilformatet. | merket eller ikke merket | No | enableVertiParquet |
Komprimeringstype | Komprimeringskodecen som brukes til å skrive Parquet-filer. | Velg blant: None gzip (.gz) irritabel lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (BZ2) lz4hadoop |
No | compressionCodec: gzip irritabel lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Maksimalt antall rader per fil | Når du skriver data inn i en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. Angi maksimalt antall rader du vil skrive per fil. | <maksimalt antall rader per fil> | No | maxRowsPerFile |
Filnavnprefiks | Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension> . Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilden er et filbasert lager eller et partisjonsalternativ aktivert datalager. |
<filnavnprefikset> | No | fileNamePrefix |