Jaa


Eroteltu tekstimuoto Data Factoryssa Microsoft Fabricissa

Tässä artikkelissa kerrotaan, miten voit määrittää erotellun tekstimuodon Microsoft Fabricin Data Factoryn tietoputkessa.

Tuetut ominaisuudet

Eroteltua tekstimuotoa tuetaan seuraavissa toiminnoissa ja liittimillä lähteenä ja kohdesijaintina.

Luokka Liitin/toiminta
Tuettu liitin Amazon S3
Amazon S3 -yhteensopiva
Azure Blob -säilö
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Tiedostojärjestelmä
FTP
Google Cloud Storage
HTTP
Lakehouse-tiedostot
Oracle Cloud Storage
SFTP
Tuettu toiminta Aktiviteetin kopioiminen (lähde/kohde)
Hakutoiminta
GetMetadata-toiminta
Aktiviteetin poistaminen

Erotellun tekstin muotoilu kopiointitoiminnossa

Jos haluat määrittää erotellun tekstimuodon, valitse yhteytesi tietoputken kopiointitoiminnon lähteessä tai kohdesijainnissa ja valitse sitten Tiedosto-muodon avattavasta luettelosta DelimitedText. Valitse Asetukset , jos haluat muuttaa tämän muodon määritystä.

Näyttökuva, jossa näkyvät tiedostomuotoasetukset.

Eroteltu tekstimuoto lähteenä

Kun olet valinnut Asetukset Tiedostomuoto-osassa, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyvät lähdetiedoston muotoiluasetukset.

  • Pakkaustyyppi: Niiden eroteltujen tekstitiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. Voit valita avattavasta luettelosta vaihtoehdon Ei mitään, bzip2, gzip, deflate, ZipDeflate, TarGzip tai tervatyyppi .

    Jos valitset pakkaustyypiksi ZipDeflate, Zip-tiedostonimen säilyttäminen kansiona näkyy Lähde-välilehden Lisäasetukset-kohdassa.

    • Säilytä zip-tiedoston nimi kansiona: Ilmaisee, säilytetäänkö lähteen zip-tiedostonimi kansiorakenteena kopion aikana.
      • Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun <specified file path>/<folder named as source zip file>/.
      • Jos tätä ruutua ei ole valittu, palvelu kirjoittaa purkumattomat tiedostot suoraan kohteeseen <specified file path>. Varmista, että eri lähde zip-tiedostoissa ei ole tiedostojen nimiä, jotta vältyt kilpailemasta tai odottamattomalta toiminnalta.

    Jos valitset pakkaustyypiksi TarGzip/tar, Säilytä pakkaustiedoston nimi kansiona näkyy Lisäasetukset-kohdassa Lähde-välilehdellä.

    • Säilytä pakkaustiedoston nimi kansiona: Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopion aikana.
      • Jos tämä ruutu on valittuna (oletus), palvelu kirjoittaa puretut tiedostot palveluun <specified file path>/<folder named as source compressed file>/.
      • Jos tämän ruudun valintaruutua ei ole valittu, palvelu kirjoittaa puretut tiedostot suoraan kohteeseen <specified file path>. Varmista, että eri lähde zip-tiedostoissa ei ole tiedostojen nimiä, jotta vältyt kilpailemasta tai odottamattomalta toiminnalta.
  • Pakkaustaso: Määritä pakkaussuhde, kun valitset pakkaustyypin. Voit valita vaihtoehdon Optimaalinen tai Nopein.

    • Nopein: Pakkaustoiminnon pitäisi valmistua mahdollisimman nopeasti, vaikka tuloksena saatavaa tiedostoa ei olisikaan pakattu optimaalisesti.
    • Optimaalinen: Pakkaustoiminnon tulee olla optimaalisesti pakattu, vaikka toiminnon suorittaminen kestää kauemmin. Lisätietoja on ohjeaiheessa Pakkaustaso.
  • Sarake-erotin: Merkit, joita käytetään sarakkeiden erottamiseen tiedostossa. Oletusarvo on pilkku (,).

  • Rivin erotin: Määritä merkki, jota käytetään erottamaan tiedoston rivit. Vain yksi merkki sallitaan. Oletusarvo on rivin syöte \n.

  • Koodaus: Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. Oletusarvo on UTF-8.

  • Escape-merkki: Yksi merkki lainausmerkeissä lainausmerkeissä olevan arvon sisällä. Oletusarvo on kenoviiva \. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia.

  • Lainausmerkki: Heittomerkki, joka lainasi sarakearvoja, jos se sisältää sarake-erottimen. Oletusarvo on lainausmerkit ". Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen.

  • Ensimmäinen rivi otsikkona: Määrittää, käsitelläänkö ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Sallitut arvot valitaan ja niitä ei valita (oletus). Kun ensimmäinen rivi otsikkona on valitsematon, huomaa Käyttöliittymätietojen esikatselu ja hakutoimintojen tuloste luovat automaattisesti sarakkeiden nimet muodossa Prop_{n} (alkaen kohdasta 0), kopiointitoiminto edellyttää eksplisiittistä yhdistämistä lähteestä kohteeseen ja etsii sarakkeet parametrin mukaan (alkaen kohdasta 1).

  • Tyhjäarvo: Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono.

Lähde-välilehden Lisäasetukset-kohdassa näytetään muita erotinmerkkejä sisältäviä tekstimuotoon liittyviä ominaisuuksia.

Erotellun tekstin muotoilu kohdesijaintina

Kun olet valinnut Asetukset Tiedostomuoto-osassa, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyvät kohdetiedoston muotoiluasetukset.

  • Pakkaustyyppi: Niiden avulla eroteltujen tekstitiedostojen pakkaamisen pakkauksenhallinta. Voit valita avattavasta luettelosta vaihtoehdon Ei mitään, bzip2, gzip, deflate, ZipDeflate, TarGzip tai tervatyyppi .

  • Pakkaustaso: Määritä pakkaussuhde, kun valitset pakkaustyypin. Voit valita vaihtoehdon Optimaalinen tai Nopein.

    • Nopein: Pakkaustoiminnon pitäisi valmistua mahdollisimman nopeasti, vaikka tuloksena saatavaa tiedostoa ei olisikaan pakattu optimaalisesti.
    • Optimaalinen: Pakkaustoiminnon tulee olla optimaalisesti pakattu, vaikka toiminnon suorittaminen kestää kauemmin. Lisätietoja on ohjeaiheessa Pakkaustaso.
  • Sarake-erotin: Merkit, joita käytetään sarakkeiden erottamiseen tiedostossa. Oletusarvo on pilkku (,).

  • Rivierotin: Merkki, jota käytetään erottamaan tiedoston rivit. Vain yksi merkki sallitaan. Oletusarvo on rivin syöte \n.

  • Koodaus: Testitiedostojen kirjoittamiseen käytettävä koodaustyyppi. Oletusarvo on UTF-8.

  • Escape-merkki: Yksi merkki lainausmerkeissä lainausmerkeissä olevan arvon sisällä. Oletusarvo on kenoviiva \. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia.

  • Lainausmerkki: Heittomerkki, joka lainasi sarakearvoja, jos se sisältää sarake-erottimen. Oletusarvo on lainausmerkit ". Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen.

  • Ensimmäinen rivi otsikkona: Määrittää, käsitelläänkö ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Sallitut arvot valitaan ja niitä ei valita (oletus). Kun ensimmäinen rivi otsikkona on valitsematon, huomaa Käyttöliittymätietojen esikatselu ja hakutoimintojen tuloste luovat automaattisesti sarakkeiden nimet muodossa Prop_{n} (alkaen kohdasta 0), kopiointitoiminto edellyttää eksplisiittistä yhdistämistä lähteestä kohteeseen ja etsii sarakkeet parametrin mukaan (alkaen kohdasta 1).

  • Tyhjäarvo: Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono.

Kohde-välilehden Lisäasetukset-kohdassa näkyy eriteltyyn tekstimuotoon liittyvä ominaisuus.

  • Lainausmerkki kaikki teksti: Sisällytä kaikki arvot lainausmerteihin.

  • Tiedostotunniste: Tiedostotunniste, jolla tulostiedostot nimetään, .csvesimerkiksi , .txt.

  • Rivien enimmäismäärä tiedostoa kohden: Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän.

  • Tiedostonimen etuliite: Käytettävissä, kun määritetään rivien enimmäismäärä tiedostoa kohden. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei koske tietosäilöä, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä.

Taulukon yhteenveto

Eroteltu teksti lähteenä

Kopioi toiminnon lähde -osassa tuetaan seuraavia ominaisuuksia käytettäessä eroteltua tekstimuotoa.

Nimi Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
 Tiedostomuoto Käytettävä tiedostomuoto. DelimitedText Kyllä tyyppi (alle datasetSettings):
DelimitedText
Pakkaustyyppi Niiden eroteltujen tekstitiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. Valitse:
Ei ole
bzip2
gzip
tyhjentää
ZipDeflate
TarGzip
terva
En tyyppi (alle compression):

bzip2
gzip
tyhjentää
ZipDeflate
TarGzip
terva
Zip-tiedoston nimen säilyttäminen kansiona Ilmaisee, säilytetäänkö lähteen zip-tiedoston nimi kansiorakenteena kopioinnin aikana. Koskee valikon ZipDeflate pakkausta. valittuna tai sen valinnan poistaminen Ei preserveZipFileNameAsFolder
(alle compressionProperties->type muodossa ZipDeflateReadSettings)
Säilytä pakkaustiedoston nimi kansiona Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopioinnin aikana. Pätee, kun valitset TarGzip/tar compression. valittuna tai sen valinnan poistaminen En preserveCompressionFileNameAsFolder
(alle compressionProperties->type muodossa TarGZipReadSettings tai TarReadSettings)
Pakkaustaso  Pakkaussuhde. Sallitut arvot ovat optimaalinen tai nopein. Optimaalinen tai nopein Ei taso (alle compression):
Nopeimmin
Optimaalinen
Sarake-erotin  Merkit, joita käytetään erottamaan tiedoston sarakkeet.  < valittu sarake-erotin >
pilkku , (oletusarvoisesti)
En columnDelimiter
Rivin erotin Merkki, jota käytetään erottamaan tiedoston rivit. < valittu rivin erotin >
\r,\n (oletusarvoisesti) tai r\n
Ei rowDelimiter
Koodaus Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. "UTF-8" (oletusarvoisesti),"UTF-8 ilman BOM:ää", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "VAIHTO-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437, IBM500, IBM737, IBM775, IBM850, IBM852, IBM855, IBM857, IBM860, IBM861, IBM863, IBM864, IBM864, IBM8865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-28859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Ei koodauksen nimi
Escape-merkki Heittomerkki, jonka avulla lainausmerkit pakotetaan lainausmerkistä lainausmerkissä olevan arvon sisällä. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia. < valitsemasi tilanvaihtomerkki >
kenoviiva \ (oletusarvoisesti)
En escapeChar
Lainausmerkki Sarakearvoja lainattava yksittäinen merkki, jos se sisältää sarake-erottimen. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen. < valittu lainausmerkkisi >
lainausmerkit " (oletusarvoisesti)
En quoteChar
Ensimmäinen rivi otsikkona Määrittää, käsitelläänkö annetun laskentataulukon/alueen ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Valittu tai valitsematon En firstRowAsHeader:
tosi tai epätosi (oletus)
Tyhjäarvo Määrittää tyhjäarvon merkkijonoesityksen. Oletusarvo on tyhjä merkkijono. < tyhjäarvon merkkijonoesitys >
tyhjä merkkijono (oletusarvoisesti)
En nullValue

Eroteltu teksti kohdesijaintina

Seuraavat ominaisuudet ovat tuettuja kopiointiaktiviteetin kohde - osassa käytettäessä eroteltua tekstimuotoa.

Nimi Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
 Tiedostomuoto Käytettävä tiedostomuoto. DelimitedText Kyllä tyyppi (alle datasetSettings):
DelimitedText
Pakkaustyyppi Eroteltujen tekstitiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Valitse:
Ei ole
bzip2
gzip
tyhjentää
ZipDeflate
TarGzip
terva
En tyyppi (alle compression):

bzip2
gzip
tyhjentää
ZipDeflate
TarGzip
terva
Zip-tiedoston nimen säilyttäminen kansiona Ilmaisee, säilytetäänkö lähteen zip-tiedoston nimi kansiorakenteena kopioinnin aikana. valittuna tai sen valinnan poistaminen Ei preserveZipFileNameAsFolder
(alle compressionProperties->type muodossa ZipDeflateReadSettings)
Säilytä pakkaustiedoston nimi kansiona Ilmaisee, säilytetäänkö lähteen pakattu tiedostonimi kansiorakenteena kopioinnin aikana. valittuna tai sen valinnan poistaminen En preserveCompressionFileNameAsFolder
(alle compressionProperties->type muodossa TarGZipReadSettings tai TarReadSettings)
Pakkaustaso  Pakkaussuhde. Sallitut arvot ovat optimaalinen tai nopein. Optimaalinen tai nopein Ei taso (alle compression):
Nopeimmin
Optimaalinen
Sarake-erotin  Merkit, joita käytetään erottamaan tiedoston sarakkeet.  < valittu sarake-erotin >
pilkku , (oletusarvoisesti)
En columnDelimiter
Rivin erotin Merkki, jota käytetään erottamaan tiedoston rivit. < valittu rivin erotin >
\r,\n (oletusarvoisesti) tai r\n
Ei rowDelimiter
Koodaus Testitiedostojen lukemiseen ja kirjoittamiseen käytettävä koodaustyyppi. "UTF-8" (oletusarvoisesti),"UTF-8 ilman BOM:ää", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "VAIHTO-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437, IBM500, IBM737, IBM775, IBM850, IBM852, IBM855, IBM857, IBM860, IBM861, IBM863, IBM864, IBM864, IBM8865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-28859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Ei koodauksen nimi
Escape-merkki Heittomerkki, jonka avulla lainausmerkit pakotetaan lainausmerkistä lainausmerkissä olevan arvon sisällä. Kun escape-merkki on määritetty tyhjäksi merkkijonoksi, lainausmerkki on määritettävä myös tyhjäksi merkkijonoksi, jolloin varmista, että kaikki sarakearvot eivät sisällä erottimia. < valitsemasi tilanvaihtomerkki >
kenoviiva \ (oletusarvoisesti)
En escapeChar
Lainausmerkki Sarakearvoja lainattava yksittäinen merkki, jos se sisältää sarake-erottimen. Kun lainausmerkki on määritetty tyhjäksi merkkijonoksi, se tarkoittaa, ettei lainausmerkkiä ole lainausmerkkiä ja sarakkeen arvoa ei ole lainausmerkillä ja escape-merkkiä käytetään sarake-erottimen ja sen itsensä pakenemiseen. < valittu lainausmerkkisi >
lainausmerkit " (oletusarvoisesti)
En quoteChar
Ensimmäinen rivi otsikkona Määrittää, käsitelläänkö annetun laskentataulukon/alueen ensimmäistä riviä otsikkorivinä sarakkeiden nimillä. Valittu tai valitsematon En firstRowAsHeader:
tosi tai epätosi (oletus)
Lainausmerkki koko tekstistä Sisällytä kaikki arvot lainausmerteihin. Valittu (oletus) tai valitsematon En quoteAllText:
true (oletus) tai false
Tiedostopääte Tiedostotunniste, jolla tulostiedostot nimetään. < tiedostotunniste >
.txt (oletusarvoisesti)
En tiedostoLaajenna
Rivien enimmäismäärä tiedostoa kohden Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää rivien enimmäismäärän tiedostoa kohden. < rivien enimmäismäärä tiedostoa kohden > En maxRowsPerFile
Tiedostonimen etuliite Käytettävissä, kun tiedostoa kohden on määritetty enintään riviä. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei koske tietosäilöä, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä. < tiedostonimen etuliite > En fileNamePrefix