Eroteltu tekstimuoto Data Factoryssa Microsoft Fabricissa
Tässä artikkelissa kerrotaan, miten voit määrittää erotellun tekstimuodon Microsoft Fabricin Data Factoryn tietoputkessa.
Tuetut ominaisuudet
Eroteltua tekstimuotoa tuetaan seuraavissa toiminnoissa ja liittimillä lähteenä ja kohdesijaintina.
Luokka | Liitin/toiminta |
---|---|
Tuettu liitin | Amazon S3 |
Amazon S3 -yhteensopiva | |
Azure Blob -säilö | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Tiedostojärjestelmä | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-tiedostot | |
Oracle Cloud Storage | |
SFTP | |
Tuettu toiminta | Aktiviteetin kopioiminen (lähde/kohde) |
Hakutoiminta | |
GetMetadata-toiminta | |
Aktiviteetin poistaminen |
Erotellun tekstin muotoilu kopiointitoiminnossa
Jos haluat määrittää erotellun tekstimuodon, valitse yhteytesi tietoputken kopiointitoiminnon lähteessä tai kohdesijainnissa ja valitse sitten Tiedosto-muodon avattavasta luettelosta DelimitedText. Valitse Asetukset , jos haluat muuttaa tämän muodon määritystä.
Eroteltu tekstimuoto lähteenä
Kun olet valinnut Asetukset Tiedostomuoto-osassa, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.
Pakkaustyyppi: Niiden eroteltujen tekstitiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. Voit valita avattavasta luettelosta vaihtoehdon Ei mitään, bzip2, gzip, deflate, ZipDeflate, TarGzip tai tervatyyppi .
Jos valitset pakkaustyypiksi ZipDeflate, Zip-tiedostonimen säilyttäminen kansiona näkyy Lähde-välilehden Lisäasetukset-kohdassa.
- Säilytä zip-tiedoston nimi kansiona: Ilmaisee, säilytetäänkö lähteen zip-tiedostonimi kansiorakenteena kopion aikana.
- Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun
<specified file path>/<folder named as source zip file>/
. - Jos tätä ruutua ei ole valittu, palvelu kirjoittaa purkumattomat tiedostot suoraan kohteeseen
<specified file path>
. Varmista, että eri lähde zip-tiedostoissa ei ole tiedostojen nimiä, jotta vältyt kilpailemasta tai odottamattomalta toiminnalta.
- Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun
Jos valitset pakkaustyypiksi TarGzip/tar, Säilytä pakkaustiedoston nimi kansiona näkyy Lisäasetukset-kohdassa Lähde-välilehdellä.
- Säilytä pakkaustiedoston nimi kansiona: Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopion aikana.
- Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun
<specified file path>/<folder named as source compressed file>/
. - Jos tämän ruudun valintaruutua ei ole valittu, palvelu kirjoittaa puretut tiedostot suoraan kohteeseen
<specified file path>
. Varmista, että eri lähde zip-tiedostoissa ei ole tiedostojen nimiä, jotta vältyt kilpailemasta tai odottamattomalta toiminnalta.
- Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun
- Säilytä zip-tiedoston nimi kansiona: Ilmaisee, säilytetäänkö lähteen zip-tiedostonimi kansiorakenteena kopion aikana.
Pakkaustaso: Määritä pakkaussuhde, kun valitset pakkaustyypin. Voit valita vaihtoehdon Optimaalinen tai Nopein.
- Nopein: Pakkaustoiminnon pitäisi valmistua mahdollisimman nopeasti, vaikka tuloksena saatavaa tiedostoa ei olisikaan pakattu optimaalisesti.
- Optimaalinen: Pakkaustoiminnon tulee olla optimaalisesti pakattu, vaikka toiminnon suorittaminen kestää kauemmin. Lisätietoja on ohjeaiheessa Pakkaustaso.
Sarake-erotin: Merkit, joita käytetään sarakkeiden erottamiseen tiedostossa. Oletusarvo on pilkku (
,
).Rivin erotin: Määritä merkki, jota käytetään erottamaan tiedoston rivit. Vain yksi merkki sallitaan. Oletusarvo on rivin syöte
\n
.Koodaus: Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. Oletusarvo on UTF-8.
Escape-merkki: Yksi merkki lainausmerkeissä lainausmerkeissä olevan arvon sisällä. Oletusarvo on kenoviiva
\
. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia.Lainausmerkki: Heittomerkki, joka lainasi sarakearvoja, jos se sisältää sarake-erottimen. Oletusarvo on lainausmerkit
"
. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen.Ensimmäinen rivi otsikkona: Määrittää, käsitelläänkö ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Sallitut arvot valitaan ja niitä ei valita (oletus). Kun ensimmäinen rivi otsikkona on valitsematon, huomaa Käyttöliittymätietojen esikatselu ja hakutoimintojen tuloste luovat automaattisesti sarakkeiden nimet muodossa Prop_{n} (alkaen kohdasta 0), kopiointitoiminto edellyttää eksplisiittistä yhdistämistä lähteestä kohteeseen ja etsii sarakkeet parametrin mukaan (alkaen kohdasta 1).
Tyhjäarvo: Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono.
Lähde-välilehden Lisäasetukset-kohdassa näytetään muita erotinmerkkejä sisältäviä tekstimuotoon liittyviä ominaisuuksia.
Erotellun tekstin muotoilu kohdesijaintina
Kun olet valinnut Asetukset Tiedostomuoto-osassa, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.
Pakkaustyyppi: Niiden avulla eroteltujen tekstitiedostojen pakkaamisen pakkauksenhallinta. Voit valita avattavasta luettelosta vaihtoehdon Ei mitään, bzip2, gzip, deflate, ZipDeflate, TarGzip tai tervatyyppi .
Pakkaustaso: Määritä pakkaussuhde, kun valitset pakkaustyypin. Voit valita vaihtoehdon Optimaalinen tai Nopein.
- Nopein: Pakkaustoiminnon pitäisi valmistua mahdollisimman nopeasti, vaikka tuloksena saatavaa tiedostoa ei olisikaan pakattu optimaalisesti.
- Optimaalinen: Pakkaustoiminnon tulee olla optimaalisesti pakattu, vaikka toiminnon suorittaminen kestää kauemmin. Lisätietoja on ohjeaiheessa Pakkaustaso.
Sarake-erotin: Merkit, joita käytetään sarakkeiden erottamiseen tiedostossa. Oletusarvo on pilkku (
,
).Rivierotin: Merkki, jota käytetään erottamaan tiedoston rivit. Vain yksi merkki sallitaan. Oletusarvo on rivin syöte
\n
.Koodaus: Testitiedostojen kirjoittamiseen käytettävä koodaustyyppi. Oletusarvo on UTF-8.
Escape-merkki: Yksi merkki lainausmerkeissä lainausmerkeissä olevan arvon sisällä. Oletusarvo on kenoviiva
\
. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia.Lainausmerkki: Heittomerkki, joka lainasi sarakearvoja, jos se sisältää sarake-erottimen. Oletusarvo on lainausmerkit
"
. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen.Ensimmäinen rivi otsikkona: Määrittää, käsitelläänkö ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Sallitut arvot valitaan ja niitä ei valita (oletus). Kun ensimmäinen rivi otsikkona on valitsematon, huomaa Käyttöliittymätietojen esikatselu ja hakutoimintojen tuloste luovat automaattisesti sarakkeiden nimet muodossa Prop_{n} (alkaen kohdasta 0), kopiointitoiminto edellyttää eksplisiittistä yhdistämistä lähteestä kohteeseen ja etsii sarakkeet parametrin mukaan (alkaen kohdasta 1).
Tyhjäarvo: Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono.
Kohde-välilehden Lisäasetukset-kohdassa näkyy eriteltyyn tekstimuotoon liittyvä ominaisuus.
Lainausmerkki kaikki teksti: Sisällytä kaikki arvot lainausmerteihin.
Tiedostotunniste: Tiedostotunniste, jolla tulostiedostot nimetään,
.csv
esimerkiksi ,.txt
.Rivien enimmäismäärä tiedostoa kohden: Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän.
Tiedostonimen etuliite: Käytettävissä, kun määritetään rivien enimmäismäärä tiedostoa kohden. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli:
<fileNamePrefix>_00000.<fileExtension>
. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei koske tietosäilöä, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä.
Taulukon yhteenveto
Eroteltu teksti lähteenä
Kopioi toiminnon lähde -osassa tuetaan seuraavia ominaisuuksia käytettäessä eroteltua tekstimuotoa.
Nimi | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tiedostomuoto | Käytettävä tiedostomuoto. | DelimitedText | Kyllä | tyyppi (alle datasetSettings ):DelimitedText |
Pakkaustyyppi | Niiden eroteltujen tekstitiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. | Valitse: Ei ole bzip2 gzip tyhjentää ZipDeflate TarGzip terva |
En | tyyppi (alle compression ): bzip2 gzip tyhjentää ZipDeflate TarGzip terva |
Zip-tiedoston nimen säilyttäminen kansiona | Ilmaisee, säilytetäänkö lähteen zip-tiedoston nimi kansiorakenteena kopioinnin aikana. Koskee valikon ZipDeflate pakkausta. | valittuna tai sen valinnan poistaminen | Ei | preserveZipFileNameAsFolder (alle compressionProperties ->type muodossa ZipDeflateReadSettings ) |
Säilytä pakkaustiedoston nimi kansiona | Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopioinnin aikana. Pätee, kun valitset TarGzip/tar compression. | valittuna tai sen valinnan poistaminen | En | preserveCompressionFileNameAsFolder (alle compressionProperties ->type muodossa TarGZipReadSettings tai TarReadSettings ) |
Pakkaustaso | Pakkaussuhde. Sallitut arvot ovat optimaalinen tai nopein. | Optimaalinen tai nopein | Ei | taso (alle compression ): Nopeimmin Optimaalinen |
Sarake-erotin | Merkit, joita käytetään erottamaan tiedoston sarakkeet. | < valittu sarake-erotin > pilkku , (oletusarvoisesti) |
En | columnDelimiter |
Rivin erotin | Merkki, jota käytetään erottamaan tiedoston rivit. | < valittu rivin erotin > \r ,\n (oletusarvoisesti) tai r\n |
Ei | rowDelimiter |
Koodaus | Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. | "UTF-8" (oletusarvoisesti),"UTF-8 ilman BOM:ää", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "VAIHTO-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437, IBM500, IBM737, IBM775, IBM850, IBM852, IBM855, IBM857, IBM860, IBM861, IBM863, IBM864, IBM864, IBM8865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-28859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Ei | koodauksen nimi |
Escape-merkki | Heittomerkki, jonka avulla lainausmerkit pakotetaan lainausmerkistä lainausmerkissä olevan arvon sisällä. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia. | < valitsemasi tilanvaihtomerkki > kenoviiva \ (oletusarvoisesti) |
En | escapeChar |
Lainausmerkki | Sarakearvoja lainattava yksittäinen merkki, jos se sisältää sarake-erottimen. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen. | < valittu lainausmerkkisi > lainausmerkit " (oletusarvoisesti) |
En | quoteChar |
Ensimmäinen rivi otsikkona | Määrittää, käsitelläänkö annetun laskentataulukon/alueen ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. | Valittu tai valitsematon | En | firstRowAsHeader: tosi tai epätosi (oletus) |
Tyhjäarvo | Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono. | < tyhjäarvon merkkijonoesitys > tyhjä merkkijono (oletusarvoisesti) |
En | nullValue |
Eroteltu teksti kohdesijaintina
Seuraavat ominaisuudet ovat tuettuja kopiointiaktiviteetin kohde - osassa käytettäessä eroteltua tekstimuotoa.
Nimi | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tiedostomuoto | Käytettävä tiedostomuoto. | DelimitedText | Kyllä | tyyppi (alle datasetSettings ):DelimitedText |
Pakkaustyyppi | Eroteltujen tekstitiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. | Valitse: Ei ole bzip2 gzip tyhjentää ZipDeflate TarGzip terva |
En | tyyppi (alle compression ): bzip2 gzip tyhjentää ZipDeflate TarGzip terva |
Zip-tiedoston nimen säilyttäminen kansiona | Ilmaisee, säilytetäänkö lähteen zip-tiedoston nimi kansiorakenteena kopioinnin aikana. | valittuna tai sen valinnan poistaminen | Ei | preserveZipFileNameAsFolder (alle compressionProperties ->type muodossa ZipDeflateReadSettings ) |
Säilytä pakkaustiedoston nimi kansiona | Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopioinnin aikana. | valittuna tai sen valinnan poistaminen | En | preserveCompressionFileNameAsFolder (alle compressionProperties ->type muodossa TarGZipReadSettings tai TarReadSettings ) |
Pakkaustaso | Pakkaussuhde. Sallitut arvot ovat optimaalinen tai nopein. | Optimaalinen tai nopein | Ei | taso (alle compression ): Nopeimmin Optimaalinen |
Sarake-erotin | Merkit, joita käytetään erottamaan tiedoston sarakkeet. | < valittu sarake-erotin > pilkku , (oletusarvoisesti) |
En | columnDelimiter |
Rivin erotin | Merkki, jota käytetään erottamaan tiedoston rivit. | < valittu rivin erotin > \r ,\n (oletusarvoisesti) tai r\n |
Ei | rowDelimiter |
Koodaus | Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. | "UTF-8" (oletusarvoisesti),"UTF-8 ilman BOM:ää", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "VAIHTO-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437, IBM500, IBM737, IBM775, IBM850, IBM852, IBM855, IBM857, IBM860, IBM861, IBM863, IBM864, IBM864, IBM8865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-28859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Ei | koodauksen nimi |
Escape-merkki | Heittomerkki, jonka avulla lainausmerkit pakotetaan lainausmerkistä lainausmerkissä olevan arvon sisällä. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia. | < valitsemasi tilanvaihtomerkki > kenoviiva \ (oletusarvoisesti) |
En | escapeChar |
Lainausmerkki | Sarakearvoja lainattava yksittäinen merkki, jos se sisältää sarake-erottimen. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen. | < valittu lainausmerkkisi > lainausmerkit " (oletusarvoisesti) |
En | quoteChar |
Ensimmäinen rivi otsikkona | Määrittää, käsitelläänkö annetun laskentataulukon/alueen ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. | Valittu tai valitsematon | En | firstRowAsHeader: tosi tai epätosi (oletus) |
Lainausmerkki koko tekstistä | Sisällytä kaikki arvot lainausmerteihin. | Valittu (oletus) tai valitsematon | En | quoteAllText: true (oletus) tai false |
Tiedostopääte | Tiedostotunniste, jolla tulostiedostot nimetään. | < tiedostotunniste > .txt (oletusarvoisesti) |
En | tiedostoLaajenna |
Rivien enimmäismäärä tiedostoa kohden | Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää rivien enimmäismäärän tiedostoa kohden. | < rivien enimmäismäärä tiedostoa kohden > | En | maxRowsPerFile |
Tiedostonimen etuliite | Käytettävissä, kun tiedostoa kohden on määritetty enintään riviä. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension> . Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei koske tietosäilöä, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä. |
< tiedostonimen etuliite > | En | fileNamePrefix |