Tekstindeling met scheidingstekens in Data Factory in Microsoft Fabric
In dit artikel wordt beschreven hoe u een tekstindeling met scheidingstekens configureert in de gegevenspijplijn van Data Factory in Microsoft Fabric.
Ondersteunde mogelijkheden
Tekstindeling met scheidingstekens wordt ondersteund voor de volgende activiteiten en connectors als bron en bestemming.
Categorie | Connector/activiteit |
---|---|
Ondersteunde connector | Amazon S3 |
Amazon S3 compatibel | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Bestandssysteem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Ondersteunde activiteit | Copy-activiteit (bron/doel) |
Activiteit Lookup | |
GetMetadata-activiteit | |
Activiteit verwijderen |
Tekstindeling met scheidingstekens in kopieeractiviteit
Als u de tekstindeling met scheidingstekens wilt configureren, kiest u de verbinding in de bron of het doel van de kopieeractiviteit van de gegevenspijplijn en selecteert u Vervolgens DelimitedText in de vervolgkeuzelijst Bestandsindeling. Selecteer Instellingen voor verdere configuratie van deze indeling.
Tekstindeling met scheidingstekens als bron
Nadat u Instellingen hebt geselecteerd in de sectie Bestandsindeling, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.
Compressietype: de compressiecodec die wordt gebruikt voor het lezen van tekstbestanden met scheidingstekens. U kunt kiezen uit None, bzip2, gzip, deflate, ZipDeflate, TarGzip of tar-type in de vervolgkeuzelijst.
Als u ZipDeflate selecteert als compressietype, wordt de naam van het zip-bestand behouden als map weergegeven onder Geavanceerde instellingen op het tabblad Bron.
- De naam van het zip-bestand behouden als map: geeft aan of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service uitgepakte bestanden naar
<specified file path>/<folder named as source zip file>/
. - Als dit selectievakje is uitgeschakeld, schrijft de service uitgepakte bestanden rechtstreeks naar
<specified file path>
. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service uitgepakte bestanden naar
Als u TarGzip/tar als compressietype selecteert, wordt de bestandsnaam van het compressiebestand behouden als map weergegeven onder Geavanceerde instellingen op het tabblad Bron.
- Compressiebestandsnaam behouden als map: Hiermee wordt aangegeven of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service gedecomprimeerde bestanden naar
<specified file path>/<folder named as source compressed file>/
. - Als dit selectievakje is uitgeschakeld, schrijft de service gedecomprimeerde bestanden rechtstreeks naar
<specified file path>
. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service gedecomprimeerde bestanden naar
- De naam van het zip-bestand behouden als map: geeft aan of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren.
Compressieniveau: Geef de compressieverhouding op wanneer u een compressietype selecteert. U kunt kiezen uit Optimale of Snelste.
- Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd.
- Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie.
Kolomscheidingsteken: de tekens die worden gebruikt om kolommen in een bestand te scheiden. De standaardwaarde is komma (
,
).Rijscheidingsteken: geef het teken op dat wordt gebruikt om rijen in een bestand te scheiden. Er is slechts één teken toegestaan. De standaardwaarde is regelfeed
\n
.Codering: het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. De standaardwaarde is UTF-8.
Escape-teken: het enkele teken om aanhalingstekens binnen een aanhalingsteken tussen aanhalingstekens te plaatsen. De standaardwaarde is backslash
\
. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten.Aanhalingsteken: Het enkele teken om kolomwaarden aan te geven als deze kolomscheidingsteken bevat. De standaardwaarde is dubbele aanhalingstekens
"
. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen.Eerste rij als koptekst: Hiermee geeft u op of de eerste rij moet worden behandeld/als veldnamenregel met namen van kolommen. Toegestane waarden worden geselecteerd en niet geselecteerd (standaard). Wanneer de eerste rij als veldnamen niet is geselecteerd, worden kolomnamen automatisch gegenereerd als Prop_{n} (vanaf 0), vereist kopieeractiviteit expliciete toewijzing van bron naar bestemming en zoekt u kolommen op rangschikken (beginnend vanaf 1).
Null-waarde: hiermee geeft u de tekenreeksweergave van null-waarde op. De standaardwaarde is een lege tekenreeks.
Onder Geavanceerde instellingen op het tabblad Bron worden andere eigenschappen voor tekstindelingen met scheidingstekens weergegeven.
Tekstindeling met scheidingstekens als doel
Nadat u Instellingen hebt geselecteerd in de sectie Bestandsindeling, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.
Compressietype: de compressiecodec die wordt gebruikt voor het schrijven van tekstbestanden met scheidingstekens. U kunt kiezen uit None, bzip2, gzip, deflate, ZipDeflate, TarGzip of tar-type in de vervolgkeuzelijst.
Compressieniveau: Geef de compressieverhouding op wanneer u een compressietype selecteert. U kunt kiezen uit Optimale of Snelste.
- Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd.
- Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie.
Kolomscheidingsteken: de tekens die worden gebruikt om kolommen in een bestand te scheiden. De standaardwaarde is komma (
,
).Rijscheidingsteken: het teken dat wordt gebruikt om rijen in een bestand te scheiden. Er is slechts één teken toegestaan. De standaardwaarde is regelfeed
\n
.Codering: het coderingstype dat wordt gebruikt voor het schrijven van testbestanden. De standaardwaarde is UTF-8.
Escape-teken: het enkele teken om aanhalingstekens binnen een aanhalingsteken tussen aanhalingstekens te plaatsen. De standaardwaarde is backslash
\
. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten.Aanhalingsteken: Het enkele teken om kolomwaarden aan te geven als deze kolomscheidingsteken bevat. De standaardwaarde is dubbele aanhalingstekens
"
. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen.Eerste rij als koptekst: Hiermee geeft u op of de eerste rij moet worden behandeld/als veldnamenregel met namen van kolommen. Toegestane waarden worden geselecteerd en niet geselecteerd (standaard). Wanneer de eerste rij als veldnamen niet is geselecteerd, worden kolomnamen automatisch gegenereerd als Prop_{n} (vanaf 0), vereist kopieeractiviteit expliciete toewijzing van bron naar bestemming en zoekt u kolommen op rangschikken (beginnend vanaf 1).
Null-waarde: hiermee geeft u de tekenreeksweergave van null-waarde op. De standaardwaarde is een lege tekenreeks.
Onder Geavanceerde instellingen op het tabblad Bestemming worden de gerelateerde eigenschap voor tekstopmaak met scheidingstekens weergegeven.
Alle tekst aanhalingstekens aanhalingstekens: plaats alle waarden tussen aanhalingstekens.
Bestandsextensie: De bestandsextensie die wordt gebruikt om de uitvoerbestanden een naam te geven,
.csv
bijvoorbeeld ,.txt
.Maximum aantal rijen per bestand: Bij het schrijven van gegevens in een map kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven.
Bestandsnaamvoorvoegsel: van toepassing wanneer maximumrijen per bestand is geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon:
<fileNamePrefix>_00000.<fileExtension>
Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron bestandsopslag of partitieoptie ingeschakeld gegevensarchief is.
Tabelsamenvatting
Tekst met scheidingstekens als bron
De volgende eigenschappen worden ondersteund in de sectie Bron van kopieeractiviteit wanneer u de tekstindeling met scheidingstekens gebruikt.
Naam | Beschrijving | Weergegeven als | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Bestandsindeling | De bestandsindeling die u wilt gebruiken. | DelimitedText | Ja | type (onder datasetSettings ):DelimitedText |
Compressietype | De compressiecodec die wordt gebruikt voor het lezen van tekstbestanden met scheidingstekens. | Kies uit de volgende mogelijkheden: Geen bzip2 gzip Deflate ZipDeflate TarGzip teer |
Nee | type (onder compression ): bzip2 gzip Deflate ZipDeflate TarGzip teer |
Zip-bestandsnaam behouden als map | Hiermee wordt aangegeven of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren. Is van toepassing wanneer u ZipDeflate-compressie selecteert. | Geselecteerd of selectie opheffen | Nee | preserveZipFileNameAsFolder (onder compressionProperties ->type als ZipDeflateReadSettings ) |
Compressiebestandsnaam behouden als map | Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren. Is van toepassing wanneer u TarGzip/tar-compressie selecteert. | Geselecteerd of selectie opheffen | Nee | preserveCompressionFileNameAsFolder (onder compressionProperties ->type als TarGZipReadSettings of TarReadSettings ) |
Compressieniveau | De compressieverhouding. Toegestane waarden zijn Optimaal of Snelste. | Optimaal of snelst | Nee | niveau (onder compression ): Snelst Optimaal |
Kolomscheidingsteken | De tekens die worden gebruikt om kolommen in een bestand te scheiden. | < het geselecteerde kolomscheidingsteken > komma , (standaard) |
Nee | columnDelimiter |
Rijscheidingsteken | Het teken dat wordt gebruikt voor het scheiden van rijen in een bestand. | < het geselecteerde rijscheidingsteken > \r ,\n (standaard) of r\n |
Nee | rowDelimiter |
Codering | Het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. | "UTF-8" (standaard),"UTF-8 zonder BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869".70', 'IBM01140', 'IBM01141', 'IBM01142', 'IBM01143', 'IBM01144', 'IBM01145', 'IBM01146', 'IBM01147', 'IBM01148', 'IBM01149', "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-11253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nee | encodingName |
Escape-teken | Het enkele teken om aanhalingstekens binnen een aanhalingstekens te ontsnappen. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten. | < het geselecteerde escape-teken > backslash \ (standaard) |
Nee | escapeChar |
Aanhalingsteken | Het enkele teken om kolomwaarden aan te geven als het kolomscheidingsteken bevat. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen. | < het geselecteerde aanhalingsteken > dubbele aanhalingstekens " (standaard) |
Nee | quoteChar |
Eerste rij als koptekst | Hiermee geeft u op of de eerste rij in het opgegeven werkblad/bereik moet worden behandeld als koptekstregel met namen van kolommen. | Geselecteerd of niet geselecteerd | Nee | firstRowAsHeader: waar of onwaar (standaard) |
Null-waarde | Hiermee geeft u de tekenreeksweergave van null-waarde. De standaardwaarde is een lege tekenreeks. | < de tekenreeksweergave van null-waarde > lege tekenreeks (standaard) |
Nee | nullValue |
Tekst met scheidingstekens als doel
De volgende eigenschappen worden ondersteund in de sectie Doel van de kopieeractiviteit wanneer u de tekstindeling met scheidingstekens gebruikt.
Naam | Beschrijving | Weergegeven als | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Bestandsindeling | De bestandsindeling die u wilt gebruiken. | DelimitedText | Ja | type (onder datasetSettings ):DelimitedText |
Compressietype | De compressiecodec die wordt gebruikt voor het schrijven van tekstbestanden met scheidingstekens. | Kies uit de volgende mogelijkheden: Geen bzip2 gzip Deflate ZipDeflate TarGzip teer |
Nee | type (onder compression ): bzip2 gzip Deflate ZipDeflate TarGzip teer |
Zip-bestandsnaam behouden als map | Hiermee wordt aangegeven of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren. | Geselecteerd of selectie opheffen | Nee | preserveZipFileNameAsFolder (onder compressionProperties ->type als ZipDeflateReadSettings ) |
Compressiebestandsnaam behouden als map | Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren. | Geselecteerd of selectie opheffen | Nee | preserveCompressionFileNameAsFolder (onder compressionProperties ->type als TarGZipReadSettings of TarReadSettings ) |
Compressieniveau | De compressieverhouding. Toegestane waarden zijn Optimaal of Snelste. | Optimaal of snelst | Nee | niveau (onder compression ): Snelst Optimaal |
Kolomscheidingsteken | De tekens die worden gebruikt om kolommen in een bestand te scheiden. | < het geselecteerde kolomscheidingsteken > komma , (standaard) |
Nee | columnDelimiter |
Rijscheidingsteken | Het teken dat wordt gebruikt voor het scheiden van rijen in een bestand. | < het geselecteerde rijscheidingsteken > \r ,\n (standaard) of r\n |
Nee | rowDelimiter |
Codering | Het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. | "UTF-8" (standaard),"UTF-8 zonder BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869".70', 'IBM01140', 'IBM01141', 'IBM01142', 'IBM01143', 'IBM01144', 'IBM01145', 'IBM01146', 'IBM01147', 'IBM01148', 'IBM01149', "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-11253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nee | encodingName |
Escape-teken | Het enkele teken om aanhalingstekens binnen een aanhalingstekens te ontsnappen. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten. | < het geselecteerde escape-teken > backslash \ (standaard) |
Nee | escapeChar |
Aanhalingsteken | Het enkele teken om kolomwaarden aan te geven als het kolomscheidingsteken bevat. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen. | < het geselecteerde aanhalingsteken > dubbele aanhalingstekens " (standaard) |
Nee | quoteChar |
Eerste rij als koptekst | Hiermee geeft u op of de eerste rij in het opgegeven werkblad/bereik moet worden behandeld als koptekstregel met namen van kolommen. | Geselecteerd of niet geselecteerd | Nee | firstRowAsHeader: waar of onwaar (standaard) |
Alle tekst aanhalingstekens | Plaats alle waarden tussen aanhalingstekens. | Geselecteerd (standaard) of niet geselecteerd | Nee | quoteAllText: waar (standaard) of onwaar |
Bestandsextensie | De bestandsextensie die wordt gebruikt om de uitvoerbestanden een naam te geven. | < uw bestandsextensie > .txt (standaard) |
Nee | fileExtension |
Maximum aantal rijen per bestand | Wanneer u gegevens in een map schrijft, kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven. | < uw maximum aantal rijen per bestand > | Nee | maxRowsPerFile |
Bestandsnaamvoorvoegsel | Van toepassing wanneer maximumrijen per bestand zijn geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon: <fileNamePrefix>_00000.<fileExtension> Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron bestandsopslag of partitieoptie ingeschakeld gegevensarchief is. |
< uw bestandsnaamvoorvoegsel > | Nee | fileNamePrefix |