Sdílet prostřednictvím


Formát Parquet ve službě Data Factory v Microsoft Fabric

Tento článek popisuje, jak nakonfigurovat formát Parquet v datovém kanálu služby Data Factory v Microsoft Fabric.

Podporované funkce

Formát Parquet je podporovaný pro následující aktivity a konektory jako zdroj a cíl.

Kategorie Konektor nebo aktivita
Podporovaný konektor Amazon S3
Kompatibilní s Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Systém souborů
FTP
Cloudové úložiště Googlu
HTTP
Soubory Lakehouse
Oracle Cloud Storage
SFTP
Podporovaná aktivita aktivita Copy (zdroj/cíl)
Aktivita Lookup
Aktivita GetMetadata
Aktivita odstranění

Formát Parquet v aktivitě kopírování

Pokud chcete nakonfigurovat formát Parquet, zvolte připojení ve zdroji nebo cíli aktivity kopírování datového kanálu a pak v rozevíracím seznamu formát souboru vyberte Parquet. Vyberte Nastavení pro další konfiguraci tohoto formátu.

Snímek obrazovky s nastavením formátu souboru

Formát Parquet jako zdroj

Po výběru Nastavení v části Formát souboru se v automaticky otevíraných nastaveních formátu souboru zobrazí následující vlastnosti.

Snímek obrazovky zobrazující zdroj formátu souboru parquet

  • Typ komprese: Zvolte kodek komprese použitý ke čtení souborů Parquet v rozevíracím seznamu. Můžete si vybrat z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) nebo lz4hadoop.

Formát Parquet jako cíl

Po výběru možnosti Nastavení se v automaticky otevíraných nastaveních formátu souboru zobrazí následující vlastnosti.

Snímek obrazovky s cílem formátu souboru parquet

  • Typ komprese: Zvolte kodek komprese použitý k zápisu souborů Parquet v rozevíracím seznamu. Můžete si vybrat z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) nebo lz4hadoop.

  • Použití V-Order: Povolte optimalizaci doby zápisu do formátu souboru parquet. Další informace najdete v tématu Optimalizace tabulek Delta Lake a pořadí V-Order. Ve výchozím nastavení je povolená.

V části Upřesnit nastavení na kartě Cíl se zobrazí následující vlastnosti související s formátem Parquet.

  • Maximální počet řádků na soubor: Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. Zadejte maximální počet řádků, které chcete zapisovat na soubor.
  • Předpona názvu souboru: Platí při konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension>. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdrojem je úložiště založené na souborech nebo možnost oddílu s povoleným úložištěm dat.

Souhrn tabulky

Parquet jako zdroj

Následující vlastnosti jsou podporovány v části Zdroj aktivity kopírování při použití formátu Parquet.

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Formát souboru Formát souboru, který chcete použít. Parkety Ano typ (v části datasetSettings):
Parquet
Typ komprese Komprimační kodek používaný ke čtení souborů Parquet. Vyberte si z:
Nic
gzip (.gz)
kousavý
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
kousavý
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet jako cíl

Následující vlastnosti jsou podporovány v části Cíl aktivity kopírování při použití formátu Parquet.

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Formát souboru Formát souboru, který chcete použít. Parkety Ano typ (v části datasetSettings):
Parquet
Použití V-Order Optimalizace doby zápisu do formátu souboru parquet. vybraná nebo nevybraná No enableVertiParquet
Typ komprese Komprimační kodek používaný k zápisu souborů Parquet. Vyberte si z:
Nic
gzip (.gz)
kousavý
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
kousavý
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Maximální počet řádků na soubor Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. Zadejte maximální počet řádků, které chcete zapisovat na soubor. <maximální počet řádků na soubor> No maxRowsPerFile
Předpona názvu souboru Platí pro konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension>. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdrojem je úložiště založené na souborech nebo možnost oddílu s povoleným úložištěm dat. <předpona názvu souboru> No fileNamePrefix