Parquet-muoto Data Factoryssa Microsoft Fabricissa
Tässä artikkelissa kerrotaan, miten voit määrittää Parquet-muodon Microsoft Fabricin Data Factoryn tietoputkessa.
Tuetut ominaisuudet
Parquet-muotoa tuetaan seuraavissa toiminnoissa ja liittimillä lähteenä ja kohdesijaintina.
Luokka | Liitin/toiminta |
---|---|
Tuettu liitin | Amazon S3 |
Amazon S3 -yhteensopiva | |
Azure Blob -säilö | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Tiedostojärjestelmä | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-tiedostot | |
Oracle Cloud Storage | |
SFTP | |
Tuettu toiminta | Aktiviteetin kopioiminen (lähde/kohde) |
Hakutoiminta | |
GetMetadata-toiminta | |
Aktiviteetin poistaminen |
Parquet-muoto kopiointitoiminnossa
Jos haluat määrittää Parquet-muodon, valitse yhteytesi tietoputken kopiointitoiminnon lähteessä tai kohdesijainnissa ja valitse sitten Tiedosto-muodon avattavasta luettelosta Parquet. Valitse Asetukset , jos haluat muuttaa tämän muodon määritystä.
Parquet-muoto lähteenä
Kun valitset Tiedostomuoto-osiossa Asetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.
- Pakkaustyyppi: Valitse avattavasta luettelosta Parquet-tiedostojen lukuun käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdot Ei mitään, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)tai lz4hadoop.
Parquet-muoto kohdesijainniksi
Kun olet valinnut Asetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.
Pakkaustyyppi: Valitse avattavasta luettelosta Parquet-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdot Ei mitään, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)tai lz4hadoop.
Käytä V-tilausta: Ota käyttöön kirjoitusajan optimointi parquet-tiedostomuotoon. Lisätietoja on kohdassa Delta Lake -taulukon optimointi ja V-järjestys. Se on oletusarvoisesti käytössä.
Kohde-välilehden Lisäasetukset-kohdassa näkyvät seuraavat Parquet-muotoiluun liittyvät ominaisuudet.
- Rivien enimmäismäärä tiedostoa kohden: Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden.
- Tiedostonimen etuliite: Käytettävissä, kun määritetään rivien enimmäismäärä tiedostoa kohden. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli:
<fileNamePrefix>_00000.<fileExtension>
. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö.
Taulukon yhteenveto
Parquet lähteenä
Seuraavia ominaisuuksia tuetaan Kopioi toiminnon lähde -osassa Parquet-muotoa käytettäessä.
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tiedostomuoto | Käytettävä tiedostomuoto. | Parketti | Kyllä | tyyppi (alle datasetSettings ):Parquet |
Pakkaustyyppi | Parquet-tiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. | Valitse: Ei ole gzip (.gz) tyylikäs lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
En | compressionCodec: gzip tyylikäs lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet kohdesijainniksi
Seuraavia ominaisuuksia tuetaan Kopioi toiminnan kohde - osassa Parquet-muotoa käytettäessä.
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tiedostomuoto | Käytettävä tiedostomuoto. | Parketti | Kyllä | tyyppi (alle datasetSettings ):Parquet |
V-järjestyksen käyttäminen | Kirjoitusajan optimointi parquet-tiedostomuotoon. | valittu tai valitsematon | En | enableVertiParquet |
Pakkaustyyppi | Parquet-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. | Valitse: Ei ole gzip (.gz) tyylikäs lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
En | compressionCodec: gzip tyylikäs lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Rivien enimmäismäärä tiedostoa kohden | Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden. | <rivien enimmäismäärä tiedostoa kohden> | En | maxRowsPerFile |
Tiedostonimen etuliite | Käytettävissä, kun tiedostoa kohden on määritetty enintään riviä. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension> . Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö. |
<tiedostonimen etuliite> | En | fileNamePrefix |