Avgränsat textformat i Data Factory i Microsoft Fabric
Den här artikeln beskriver hur du konfigurerar avgränsat textformat i datapipelinen för Data Factory i Microsoft Fabric.
Funktioner som stöds
Avgränsat textformat stöds för följande aktiviteter och anslutningsappar som källa och mål.
Kategori | Anslutningsapp/aktivitet |
---|---|
Anslutningsprogram som stöds | Amazon S3 |
Amazon S3-kompatibel | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Filsystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-filer | |
Oracle Cloud Storage | |
SFTP | |
Aktivitet som stöds | aktiviteten Kopiera (källa/mål) |
Sökningsaktivitet | |
GetMetadata-aktivitet | |
Ta bort aktivitet |
Avgränsat textformat i kopieringsaktivitet
Om du vill konfigurera avgränsat textformat väljer du din anslutning i källan eller målet för kopieringsaktiviteten för datapipelinen och väljer sedan Avgränsadtext i listrutan Filformat. Välj Inställningar för ytterligare konfiguration av det här formatet.
Avgränsat textformat som källa
När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.
Komprimeringstyp: Den komprimeringskodc som används för att läsa avgränsade textfiler. Du kan välja mellan None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type i listrutan.
Om du väljer ZipDeflate som komprimeringstyp visas Spara zip-filnamn som mapp under Avancerade inställningar på fliken Källa .
- Bevara zip-filnamnet som mapp: Anger om du vill behålla zip-källfilens namn som mappstruktur under kopiering.
- Om den här rutan är markerad (standard) skriver tjänsten uppackade filer till
<specified file path>/<folder named as source zip file>/
. - Om den här rutan är avmarkerad skriver tjänsten uppackade filer direkt till
<specified file path>
. Kontrollera att du inte har duplicerade filnamn i olika zip-källfiler för att undvika racing eller oväntat beteende.
- Om den här rutan är markerad (standard) skriver tjänsten uppackade filer till
Om du väljer TarGzip/tjära som komprimeringstyp visas Bevara komprimeringsfilens namn som mapp under Avancerade inställningar på fliken Källa .
- Behåll komprimeringsfilens namn som mapp: Anger om det komprimerade källfilnamnet ska behållas som mappstruktur under kopieringen.
- Om den här rutan är markerad (standard) skriver tjänsten dekomprimerade filer till
<specified file path>/<folder named as source compressed file>/
. - Om den här rutan är avmarkerad skriver tjänsten dekomprimerade filer direkt till
<specified file path>
. Kontrollera att du inte har duplicerade filnamn i olika zip-källfiler för att undvika racing eller oväntat beteende.
- Om den här rutan är markerad (standard) skriver tjänsten dekomprimerade filer till
- Bevara zip-filnamnet som mapp: Anger om du vill behålla zip-källfilens namn som mappstruktur under kopiering.
Komprimeringsnivå: Ange komprimeringsförhållandet när du väljer en komprimeringstyp. Du kan välja mellan Optimal eller Snabbaste.
- Snabbast: Komprimeringsåtgärden bör slutföras så snabbt som möjligt, även om den resulterande filen inte komprimeras optimalt.
- Optimal: Komprimeringsåtgärden bör komprimeras optimalt, även om åtgärden tar längre tid att slutföra. Mer information finns i avsnittet Komprimeringsnivå.
Kolumnavgränsare: De tecken som används för att separera kolumner i en fil. Standardvärdet är kommatecken (
,
).Radavgränsare: Ange det tecken som används för att avgränsa rader i en fil. Endast ett tecken är tillåtet. Standardvärdet är radmatning
\n
.Kodning: Kodningstypen som används för att läsa/skriva testfiler. Standardvärdet är UTF-8.
Escape-tecken: Det enkla tecknet för att undkomma citattecken i ett citerat värde. Standardvärdet är omvänt snedstreck
\
. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare.Citattecken: Det enstaka tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. Standardvärdet är dubbla citattecken
"
. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv.Första raden som rubrik: Anger om den första raden ska behandlas/ändras som en rubrikrad med namn på kolumner. Tillåtna värden är markerade och avmarkerade (standard). När den första raden som rubrik är omarkerad, observera att användargränssnittsdataförhandsgranskning och uppslagsaktivitet genererar kolumnnamn automatiskt som Prop_{n} (från och med 0), kräver kopieringsaktivitet explicit mappning från källa till mål och letar upp kolumner efter ordning (från 1).
Null-värde: Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng.
Under Avancerade inställningar på fliken Källa exponeras andra avgränsade textformatrelaterade egenskaper.
Avgränsat textformat som mål
När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.
Komprimeringstyp: Den komprimeringskodc som används för att skriva avgränsade textfiler. Du kan välja mellan None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type i listrutan.
Komprimeringsnivå: Ange komprimeringsförhållandet när du väljer en komprimeringstyp. Du kan välja mellan Optimal eller Snabbaste.
- Snabbast: Komprimeringsåtgärden bör slutföras så snabbt som möjligt, även om den resulterande filen inte komprimeras optimalt.
- Optimal: Komprimeringsåtgärden bör komprimeras optimalt, även om åtgärden tar längre tid att slutföra. Mer information finns i avsnittet Komprimeringsnivå.
Kolumnavgränsare: De tecken som används för att separera kolumner i en fil. Standardvärdet är kommatecken (
,
).Radavgränsare: Tecknet som används för att separera rader i en fil. Endast ett tecken är tillåtet. Standardvärdet är radmatning
\n
.Kodning: Kodningstypen som används för att skriva testfiler. Standardvärdet är UTF-8.
Escape-tecken: Det enkla tecknet för att undkomma citattecken i ett citerat värde. Standardvärdet är omvänt snedstreck
\
. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare.Citattecken: Det enstaka tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. Standardvärdet är dubbla citattecken
"
. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv.Första raden som rubrik: Anger om den första raden ska behandlas/ändras som en rubrikrad med namn på kolumner. Tillåtna värden är markerade och avmarkerade (standard). När den första raden som rubrik är omarkerad, observera att användargränssnittsdataförhandsgranskning och uppslagsaktivitet genererar kolumnnamn automatiskt som Prop_{n} (från och med 0), kräver kopieringsaktivitet explicit mappning från källa till mål och letar upp kolumner efter ordning (från 1).
Null-värde: Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng.
Under Avancerade inställningar på fliken Mål visas ytterligare avgränsade textformatrelaterade egenskaper.
Citera all text: Omslut alla värden med citattecken.
Filnamnstillägg: Filnamnstillägget som används för att namnge utdatafilerna,
.csv
till exempel ,.txt
.Maximalt antal rader per fil: När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil.
Filnamnsprefix: Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret:
<fileNamePrefix>_00000.<fileExtension>
. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är filbaserat lagrings- eller partitionsalternativ aktiverat datalager.
Tabellsammanfattning
Avgränsad text som källa
Följande egenskaper stöds i avsnittet Käll för kopieringsaktivitet när du använder avgränsat textformat.
Namn | Beskrivning | Värde | Krävs | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Det filformat som du vill använda. | Avgränsadtext | Ja | typ (under datasetSettings ):Avgränsadtext |
Komprimeringstyp | Komprimeringskodcen som används för att läsa avgränsade textfiler. | Välj mellan: None bzip2 gzip Tömma ZipDeflate TarGzip tjära |
Nej | typ (under compression ): bzip2 gzip Tömma ZipDeflate TarGzip tjära |
Bevara zip-filnamnet som mapp | Anger om käll-zip-filnamnet ska behållas som mappstruktur under kopiering. Gäller när du väljer ZipDeflate-komprimering . | Markera eller avmarkera | Nej | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevara komprimeringsfilens namn som mapp | Anger om källans komprimerade filnamn ska bevaras som mappstruktur under kopieringen. Gäller när du väljer TarGzip/tar-komprimering . | Markera eller avmarkera | Nej | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsförhållandet. Tillåtna värden är optimala eller snabbaste. | Optimal eller snabbast | Nej | nivå (under compression ): Snabbast Optimal |
Kolumn avgränsare | De tecken som används för att separera kolumner i en fil. | < den markerade kolumngränsaren > kommatecken , (som standard) |
Nej | columnDelimiter |
Radgränsare | Det tecken som används för att avgränsa rader i en fil. | < den markerade radgränsaren > \r ,\n (som standard) eller r\n |
Nej | rowDelimiter |
Kodning | Kodningstypen som används för att läsa/skriva testfiler. | "UTF-8" (som standard),"UTF-8 utan BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-2", "ISO-8859-2", "ISO-8859-3", "ISO-2"8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nej | encodingName |
Escape-tecken | Det enkla tecknet för att undkomma citattecken i ett citerat värde. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare. | < det markerade escape-tecknet > omvänt snedstreck \ (som standard) |
Nej | escapeChar |
Citattecken | Det enkla tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv. | < ditt valda citattecken > dubbla citattecken " (som standard) |
Nej | quoteChar |
Första raden som rubrik | Anger om den första raden i det angivna kalkylbladet/intervallet ska behandlas som en rubrikrad med namn på kolumner. | Markerad eller omarkerad | Nej | firstRowAsHeader: sant eller falskt (standard) |
Null-värde | Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng. | < strängrepresentationen av null-värdet > tom sträng (som standard) |
Nej | nullValue |
Avgränsad text som mål
Följande egenskaper stöds i avsnittet Mål för kopieringsaktivitet när du använder avgränsat textformat.
Namn | Beskrivning | Värde | Krävs | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Det filformat som du vill använda. | Avgränsadtext | Ja | typ (under datasetSettings ):Avgränsadtext |
Komprimeringstyp | Komprimeringskodcen som används för att skriva avgränsade textfiler. | Välj mellan: None bzip2 gzip Tömma ZipDeflate TarGzip tjära |
Nej | typ (under compression ): bzip2 gzip Tömma ZipDeflate TarGzip tjära |
Bevara zip-filnamnet som mapp | Anger om käll-zip-filnamnet ska behållas som mappstruktur under kopiering. | Markera eller avmarkera | Nej | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevara komprimeringsfilens namn som mapp | Anger om källans komprimerade filnamn ska bevaras som mappstruktur under kopieringen. | Markera eller avmarkera | Nej | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsförhållandet. Tillåtna värden är optimala eller snabbaste. | Optimal eller snabbast | Nej | nivå (under compression ): Snabbast Optimal |
Kolumn avgränsare | De tecken som används för att separera kolumner i en fil. | < den markerade kolumngränsaren > kommatecken , (som standard) |
Nej | columnDelimiter |
Radgränsare | Det tecken som används för att avgränsa rader i en fil. | < den markerade radgränsaren > \r ,\n (som standard) eller r\n |
Nej | rowDelimiter |
Kodning | Kodningstypen som används för att läsa/skriva testfiler. | "UTF-8" (som standard),"UTF-8 utan BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-2", "ISO-8859-2", "ISO-8859-3", "ISO-2"8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nej | encodingName |
Escape-tecken | Det enkla tecknet för att undkomma citattecken i ett citerat värde. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare. | < det markerade escape-tecknet > omvänt snedstreck \ (som standard) |
Nej | escapeChar |
Citattecken | Det enkla tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv. | < ditt valda citattecken > dubbla citattecken " (som standard) |
Nej | quoteChar |
Första raden som rubrik | Anger om den första raden i det angivna kalkylbladet/intervallet ska behandlas som en rubrikrad med namn på kolumner. | Markerad eller omarkerad | Nej | firstRowAsHeader: sant eller falskt (standard) |
Citera all text | Omslut alla värden inom citattecken. | Markerad (standard) eller omarkerad | Nej | quoteAllText: sant (standard) eller falskt |
Filnamnstillägg | Filnamnstillägget som används för att namnge utdatafilerna. | < filnamnstillägget > .txt (som standard) |
Nej | fileExtension |
Maximalt antal rader per fil | När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. | < maximalt antal rader per fil > | Nej | maxRowsPerFile |
Filnamnsprefix | Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension> . Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är filbaserat lagrings- eller partitionsalternativ aktiverat datalager. |
< ditt filnamnsprefix > | Nej | fileNamePrefix |