Jaa


Parquet-muoto Data Factoryssa Microsoft Fabricissa

Tässä artikkelissa kerrotaan, miten voit määrittää Parquet-muodon Microsoft Fabricin Data Factoryn tietoputkessa.

Tuetut ominaisuudet

Parquet-muotoa tuetaan seuraavissa toiminnoissa ja liittimillä lähteenä ja kohdesijaintina.

Luokka Liitin/toiminta
Tuettu liitin Amazon S3
Amazon S3 -yhteensopiva
Azure Blob -säilö
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Tiedostojärjestelmä
FTP
Google Cloud Storage
HTTP
Lakehouse-tiedostot
Oracle Cloud Storage
SFTP
Tuettu toiminta Aktiviteetin kopioiminen (lähde/kohde)
Hakutoiminta
GetMetadata-toiminta
Aktiviteetin poistaminen

Parquet-muoto kopiointitoiminnossa

Jos haluat määrittää Parquet-muodon, valitse yhteytesi tietoputken kopiointitoiminnon lähteessä tai kohdesijainnissa ja valitse sitten Tiedosto-muodon avattavasta luettelosta Parquet. Valitse Asetukset , jos haluat muuttaa tämän muodon määritystä.

Näyttökuva, jossa näkyvät tiedostomuotoasetukset.

Parquet-muoto lähteenä

Kun valitset Tiedostomuoto-osiossa Asetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyy parquet-tiedostomuodon lähde.

  • Pakkaustyyppi: Valitse avattavasta luettelosta Parquet-tiedostojen lukuun käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdot Ei mitään, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)tai lz4hadoop.

Parquet-muoto kohdesijainniksi

Kun olet valinnut Asetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyy parquet-tiedoston muotoilun kohde.

  • Pakkaustyyppi: Valitse avattavasta luettelosta Parquet-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdot Ei mitään, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)tai lz4hadoop.

  • Käytä V-tilausta: Ota käyttöön kirjoitusajan optimointi parquet-tiedostomuotoon. Lisätietoja on kohdassa Delta Lake -taulukon optimointi ja V-järjestys. Se on oletusarvoisesti käytössä.

Kohde-välilehden Lisäasetukset-kohdassa näkyvät seuraavat Parquet-muotoiluun liittyvät ominaisuudet.

  • Rivien enimmäismäärä tiedostoa kohden: Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden.
  • Tiedostonimen etuliite: Käytettävissä, kun määritetään rivien enimmäismäärä tiedostoa kohden. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö.

Taulukon yhteenveto

Parquet lähteenä

Seuraavia ominaisuuksia tuetaan Kopioi toiminnon lähde -osassa Parquet-muotoa käytettäessä.

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tiedostomuoto Käytettävä tiedostomuoto. Parketti Kyllä tyyppi (alle datasetSettings):
Parquet
Pakkaustyyppi Parquet-tiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. Valitse:
Ei ole
gzip (.gz)
tyylikäs
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
En compressionCodec:

gzip
tyylikäs
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet kohdesijainniksi

Seuraavia ominaisuuksia tuetaan Kopioi toiminnan kohde - osassa Parquet-muotoa käytettäessä.

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tiedostomuoto Käytettävä tiedostomuoto. Parketti Kyllä tyyppi (alle datasetSettings):
Parquet
V-järjestyksen käyttäminen Kirjoitusajan optimointi parquet-tiedostomuotoon. valittu tai valitsematon En enableVertiParquet
Pakkaustyyppi Parquet-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Valitse:
Ei ole
gzip (.gz)
tyylikäs
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
En compressionCodec:

gzip
tyylikäs
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Rivien enimmäismäärä tiedostoa kohden Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden. <rivien enimmäismäärä tiedostoa kohden> En maxRowsPerFile
Tiedostonimen etuliite Käytettävissä, kun tiedostoa kohden on määritetty enintään riviä. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö. <tiedostonimen etuliite> En fileNamePrefix