Afgrænset tekstformat i Data Factory i Microsoft Fabric
I denne artikel beskrives det, hvordan du konfigurerer afgrænset tekstformat i datapipelinen for Data Factory i Microsoft Fabric.
Understøttede funktioner
Afgrænset tekstformat understøttes for følgende aktiviteter og forbindelser som kilde og destination.
Kategori | Connector/aktivitet |
---|---|
Understøttet connector | Amazon S3 |
Amazon S3-kompatibel | |
Azure Blob Storage | |
Azure Data Lake-lagring Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Filsystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-filer | |
Oracle Cloud Storage | |
SFTP | |
Understøttet aktivitet | Kopiér aktivitet (kilde/destination) |
Opslagsaktivitet | |
GetMetadata-aktivitet | |
Slet aktivitet |
Afgrænset tekstformat i kopiaktivitet
Hvis du vil konfigurere afgrænset tekstformat, skal du vælge din forbindelse i kilden eller destinationen for kopieringsaktiviteten for datapipelinen og derefter vælge AfgrænsetTekst på rullelisten i Filformat. Vælg Indstillinger for yderligere konfiguration af dette format.
Afgrænset tekstformat som kilde
Når du har valgt Indstillinger i afsnittet Filformat, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.
Komprimeringstype: Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Du kan vælge mellem Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype på rullelisten.
Hvis du vælger ZipDeflate som komprimeringstype, vises Bevar zip-filnavnet som mappe under Avancerede indstillinger under fanen Kilde .
- Bevar zip-filnavnet som mappe: Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten ikke-udpakkede filer til
<specified file path>/<folder named as source zip file>/
. - Hvis afkrydsningsfeltet ikke er markeret, skriver tjenesten ikke-pakkede filer direkte til
<specified file path>
. Sørg for, at du ikke har duplikerede filnavne i forskellige kilde zip-filer for at undgå væddeløb eller uventet funktionsmåde.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten ikke-udpakkede filer til
Hvis du vælger TarGzip/tjære som komprimeringstype, vises Bevar komprimeringsfilnavnet som mappe under Avancerede indstillinger under fanen Kilde .
- Bevar komprimeringsfilnavnet som mappe: Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopiering.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til
<specified file path>/<folder named as source compressed file>/
. - Hvis afkrydsningsfeltet ikke er markeret, skriver tjenesten dekomprimerede filer direkte til
<specified file path>
. Sørg for, at du ikke har duplikerede filnavne i forskellige kilde zip-filer for at undgå væddeløb eller uventet funktionsmåde.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til
- Bevar zip-filnavnet som mappe: Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering.
Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigst.
- Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke komprimeres optimalt.
- Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (
,
).Rækkeafgrænser: Angiv det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift
\n
.Kodning: Den kodningstype, der bruges til at læse/skrive testfiler. Standardværdien er UTF-8.
Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg
\
. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.Anførselstegn: Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn
"
. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv.Første række som overskrift: Angiver, om den første række skal behandles/gøres til en overskriftslinje med navne på kolonner. Tilladte værdier er markeret og ikke markeret (standard). Når den første række som overskrift ikke er markeret, skal du se eksempelvisning af brugergrænsefladedata og automatisk generere kolonnenavne i opslagsaktivitet som Prop_{n} (startende fra 0), kopiér aktivitet kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).
Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.
Under Avancerede indstillinger under fanen Kilde vises andre relaterede egenskaber for afgrænset tekstformat.
Afgrænset tekstformat som destination
Når du har valgt Indstillinger i afsnittet Filformat, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.
Komprimeringstype: Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Du kan vælge mellem Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype på rullelisten.
Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigst.
- Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke komprimeres optimalt.
- Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (
,
).Rækkeafgrænser: Det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift
\n
.Kodning: Den kodningstype, der bruges til at skrive testfiler. Standardværdien er UTF-8.
Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg
\
. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.Anførselstegn: Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn
"
. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv.Første række som overskrift: Angiver, om den første række skal behandles/gøres til en overskriftslinje med navne på kolonner. Tilladte værdier er markeret og ikke markeret (standard). Når den første række som overskrift ikke er markeret, skal du se eksempelvisning af brugergrænsefladedata og automatisk generere kolonnenavne i opslagsaktivitet som Prop_{n} (startende fra 0), kopiér aktivitet kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).
Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.
Under Avancerede indstillinger under fanen Destination vises yderligere relaterede egenskaber for afgrænset tekstformat.
Citat al tekst: Omslut alle værdier i anførselstegn.
Filtypenavn: Det filtypenavn, der bruges til at navngive outputfilerne,
.csv
f.eks. ,.txt
.Maksimalt antal rækker pr. fil: Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil.
Præfiks for filnavn: Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster:
<fileNamePrefix>_00000.<fileExtension>
. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager.
Tabeloversigt
Afgrænset tekst som kilde
Følgende egenskaber understøttes i afsnittet kopiaktivitetskilde, når du bruger afgrænset tekstformat.
Navn | Beskrivelse | Værdi | Kræves | JSON-scriptegenskab |
---|---|---|---|---|
Filformat | Det filformat, du vil bruge. | Afgrænset tekst | Ja | type (under datasetSettings ):Afgrænset tekst |
Komprimeringstype | Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. | Vælg mellem: Ingen bzip2 gzip Deflatere ZipDeflate TarGzip tjære |
Nr. | type (under compression ): bzip2 gzip Deflatere ZipDeflate TarGzip tjære |
Bevar zip-filnavnet som mappe | Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. Gælder, når du vælger ZipDeflate-komprimering . | Markeret eller fravælg | Nej | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevar komprimering af filnavnet som mappe | Angiver, om det komprimerede kildefilnavn skal bevares som mappestruktur under kopiering. Gælder, når du vælger TarGzip/tjærekomprimering . | Markeret eller fravælg | Nr. | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsniveau | Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. | Optimal eller hurtigste | Nej | niveau (under compression ): Hurtigste Optimal |
Kolonneafgrænser | De tegn, der bruges til at adskille kolonner i en fil. | < det markerede kolonneafgrænser > komma , (som standard) |
Nr. | columnDelimiter |
Rækkeafgrænser | Det tegn, der bruges til at adskille rækker i en fil. | < det markerede rækkeafgrænser > \r ,\n (som standard) eller r\n |
Nej | rowDelimiter |
Kodning | Den kodningstype, der bruges til at læse/skrive testfiler. | "UTF-8" (som standard),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nej | encodingName |
Escape-tegn | Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en citeret værdi. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. | < det valgte escape-tegn > omvendt skråstreg \ (som standard) |
Nr. | escapeChar |
Anførselstegn | Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. | < det valgte anførselstegn > dobbelte anførselstegn " (som standard) |
Nr. | quoteChar |
Første række som overskrift | Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. | Markeret eller ikke markeret | Nr. | firstRowAsHeader: true eller false (standard) |
Null-værdi | Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng. | < strengrepræsentationen af null-værdien > tom streng (som standard) |
Nr. | nullValue |
Afgrænset tekst som destination
Følgende egenskaber understøttes i afsnittet Destination for kopiaktivitet, når der bruges afgrænset tekstformat.
Navn | Beskrivelse | Værdi | Kræves | JSON-scriptegenskab |
---|---|---|---|---|
Filformat | Det filformat, du vil bruge. | Afgrænset tekst | Ja | type (under datasetSettings ):Afgrænset tekst |
Komprimeringstype | Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. | Vælg mellem: Ingen bzip2 gzip Deflatere ZipDeflate TarGzip tjære |
Nr. | type (under compression ): bzip2 gzip Deflatere ZipDeflate TarGzip tjære |
Bevar zip-filnavnet som mappe | Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. | Markeret eller fravælg | Nej | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevar komprimering af filnavnet som mappe | Angiver, om det komprimerede kildefilnavn skal bevares som mappestruktur under kopiering. | Markeret eller fravælg | Nr. | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsniveau | Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. | Optimal eller hurtigste | Nej | niveau (under compression ): Hurtigste Optimal |
Kolonneafgrænser | De tegn, der bruges til at adskille kolonner i en fil. | < det markerede kolonneafgrænser > komma , (som standard) |
Nr. | columnDelimiter |
Rækkeafgrænser | Det tegn, der bruges til at adskille rækker i en fil. | < det markerede rækkeafgrænser > \r ,\n (som standard) eller r\n |
Nej | rowDelimiter |
Kodning | Den kodningstype, der bruges til at læse/skrive testfiler. | "UTF-8" (som standard),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nej | encodingName |
Escape-tegn | Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en citeret værdi. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. | < det valgte escape-tegn > omvendt skråstreg \ (som standard) |
Nr. | escapeChar |
Anførselstegn | Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. | < det valgte anførselstegn > dobbelte anførselstegn " (som standard) |
Nr. | quoteChar |
Første række som overskrift | Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. | Markeret eller ikke markeret | Nr. | firstRowAsHeader: true eller false (standard) |
Citerer al tekst | Omslut alle værdier i anførselstegn. | Markeret (standard) eller ikke markeret | Nr. | quoteAllText: true (standard) eller false |
Filtypenavn | Det filtypenavn, der bruges til at navngive outputfilerne. | < filtypenavnet > .txt (som standard) |
Nr. | fileExtension |
Maks. antal rækker pr. fil | Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. | < dine maksimale rækker pr. fil > | Nr. | maxRowsPerFile |
Præfiks for filnavn | Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension> . Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager. |
< præfikset for filnavnet > | Nr. | fileNamePrefix |