Formát Parquet ve službě Data Factory v Microsoft Fabric
Tento článek popisuje, jak nakonfigurovat formát Parquet v datovém kanálu služby Data Factory v Microsoft Fabric.
Podporované funkce
Formát Parquet je podporovaný pro následující aktivity a konektory jako zdroj a cíl.
Kategorie | Konektor nebo aktivita |
---|---|
Podporovaný konektor | Amazon S3 |
Kompatibilní s Amazon S3 | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Systém souborů | |
FTP | |
Cloudové úložiště Googlu | |
HTTP | |
Soubory Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Podporovaná aktivita | aktivita Copy (zdroj/cíl) |
Aktivita Lookup | |
Aktivita GetMetadata | |
Aktivita odstranění |
Formát Parquet v aktivitě kopírování
Pokud chcete nakonfigurovat formát Parquet, zvolte připojení ve zdroji nebo cíli aktivity kopírování datového kanálu a pak v rozevíracím seznamu formát souboru vyberte Parquet. Vyberte Nastavení pro další konfiguraci tohoto formátu.
Formát Parquet jako zdroj
Po výběru Nastavení v části Formát souboru se v automaticky otevíraných nastaveních formátu souboru zobrazí následující vlastnosti.
- Typ komprese: Zvolte kodek komprese použitý ke čtení souborů Parquet v rozevíracím seznamu. Můžete si vybrat z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) nebo lz4hadoop.
Formát Parquet jako cíl
Po výběru možnosti Nastavení se v automaticky otevíraných nastaveních formátu souboru zobrazí následující vlastnosti.
Typ komprese: Zvolte kodek komprese použitý k zápisu souborů Parquet v rozevíracím seznamu. Můžete si vybrat z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) nebo lz4hadoop.
Použití V-Order: Povolte optimalizaci doby zápisu do formátu souboru parquet. Další informace najdete v tématu Optimalizace tabulek Delta Lake a pořadí V-Order. Ve výchozím nastavení je povolená.
V části Upřesnit nastavení na kartě Cíl se zobrazí následující vlastnosti související s formátem Parquet.
- Maximální počet řádků na soubor: Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. Zadejte maximální počet řádků, které chcete zapisovat na soubor.
- Předpona názvu souboru: Platí při konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor:
<fileNamePrefix>_00000.<fileExtension>
. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdrojem je úložiště založené na souborech nebo možnost oddílu s povoleným úložištěm dat.
Souhrn tabulky
Parquet jako zdroj
Následující vlastnosti jsou podporovány v části Zdroj aktivity kopírování při použití formátu Parquet.
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Formát souboru | Formát souboru, který chcete použít. | Parkety | Ano | typ (v části datasetSettings ):Parquet |
Typ komprese | Komprimační kodek používaný ke čtení souborů Parquet. | Vyberte si z: Nic gzip (.gz) kousavý lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip kousavý lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet jako cíl
Následující vlastnosti jsou podporovány v části Cíl aktivity kopírování při použití formátu Parquet.
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Formát souboru | Formát souboru, který chcete použít. | Parkety | Ano | typ (v části datasetSettings ):Parquet |
Použití V-Order | Optimalizace doby zápisu do formátu souboru parquet. | vybraná nebo nevybraná | No | enableVertiParquet |
Typ komprese | Komprimační kodek používaný k zápisu souborů Parquet. | Vyberte si z: Nic gzip (.gz) kousavý lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip kousavý lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Maximální počet řádků na soubor | Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. Zadejte maximální počet řádků, které chcete zapisovat na soubor. | <maximální počet řádků na soubor> | No | maxRowsPerFile |
Předpona názvu souboru | Platí pro konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension> . Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdrojem je úložiště založené na souborech nebo možnost oddílu s povoleným úložištěm dat. |
<předpona názvu souboru> | No | fileNamePrefix |