Del via


Afgrænset tekstformat i Data Factory i Microsoft Fabric

I denne artikel beskrives det, hvordan du konfigurerer afgrænset tekstformat i datapipelinen for Data Factory i Microsoft Fabric.

Understøttede funktioner

Afgrænset tekstformat understøttes for følgende aktiviteter og forbindelser som kilde og destination.

Kategori Connector/aktivitet
Understøttet connector Amazon S3
Amazon S3-kompatibel
Azure Blob Storage
Azure Data Lake-lagring Gen1
Azure Data Lake Storage Gen2
Azure Files
Filsystem
FTP
Google Cloud Storage
HTTP
Lakehouse-filer
Oracle Cloud Storage
SFTP
Understøttet aktivitet Kopiér aktivitet (kilde/destination)
Opslagsaktivitet
GetMetadata-aktivitet
Slet aktivitet

Afgrænset tekstformat i kopiaktivitet

Hvis du vil konfigurere afgrænset tekstformat, skal du vælge din forbindelse i kilden eller destinationen for kopieringsaktiviteten for datapipelinen og derefter vælge AfgrænsetTekst på rullelisten i Filformat. Vælg Indstillinger for yderligere konfiguration af dette format.

Skærmbillede, der viser indstillinger for filformat.

Afgrænset tekstformat som kilde

Når du har valgt Indstillinger i afsnittet Filformat, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.

Skærmbillede, der viser indstillinger for kildefilformat.

  • Komprimeringstype: Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Du kan vælge mellem Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype på rullelisten.

    Hvis du vælger ZipDeflate som komprimeringstype, vises Bevar zip-filnavnet som mappe under Avancerede indstillinger under fanen Kilde .

    • Bevar zip-filnavnet som mappe: Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering.
      • Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten ikke-udpakkede filer til <specified file path>/<folder named as source zip file>/.
      • Hvis afkrydsningsfeltet ikke er markeret, skriver tjenesten ikke-pakkede filer direkte til <specified file path>. Sørg for, at du ikke har duplikerede filnavne i forskellige kilde zip-filer for at undgå væddeløb eller uventet funktionsmåde.

    Hvis du vælger TarGzip/tjære som komprimeringstype, vises Bevar komprimeringsfilnavnet som mappe under Avancerede indstillinger under fanen Kilde .

    • Bevar komprimeringsfilnavnet som mappe: Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopiering.
      • Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til <specified file path>/<folder named as source compressed file>/.
      • Hvis afkrydsningsfeltet ikke er markeret, skriver tjenesten dekomprimerede filer direkte til <specified file path>. Sørg for, at du ikke har duplikerede filnavne i forskellige kilde zip-filer for at undgå væddeløb eller uventet funktionsmåde.
  • Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigst.

    • Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke komprimeres optimalt.
    • Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
  • Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (,).

  • Rækkeafgrænser: Angiv det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift \n.

  • Kodning: Den kodningstype, der bruges til at læse/skrive testfiler. Standardværdien er UTF-8.

  • Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg \. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.

  • Anførselstegn: Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn ". Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv.

  • Første række som overskrift: Angiver, om den første række skal behandles/gøres til en overskriftslinje med navne på kolonner. Tilladte værdier er markeret og ikke markeret (standard). Når den første række som overskrift ikke er markeret, skal du se eksempelvisning af brugergrænsefladedata og automatisk generere kolonnenavne i opslagsaktivitet som Prop_{n} (startende fra 0), kopiér aktivitet kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).

  • Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.

Under Avancerede indstillinger under fanen Kilde vises andre relaterede egenskaber for afgrænset tekstformat.

Afgrænset tekstformat som destination

Når du har valgt Indstillinger i afsnittet Filformat, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.

Skærmbillede, der viser indstillinger for destinationsfilformat.

  • Komprimeringstype: Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Du kan vælge mellem Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype på rullelisten.

  • Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigst.

    • Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke komprimeres optimalt.
    • Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
  • Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (,).

  • Rækkeafgrænser: Det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift \n.

  • Kodning: Den kodningstype, der bruges til at skrive testfiler. Standardværdien er UTF-8.

  • Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg \. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.

  • Anførselstegn: Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn ". Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv.

  • Første række som overskrift: Angiver, om den første række skal behandles/gøres til en overskriftslinje med navne på kolonner. Tilladte værdier er markeret og ikke markeret (standard). Når den første række som overskrift ikke er markeret, skal du se eksempelvisning af brugergrænsefladedata og automatisk generere kolonnenavne i opslagsaktivitet som Prop_{n} (startende fra 0), kopiér aktivitet kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).

  • Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.

Under Avancerede indstillinger under fanen Destination vises yderligere relaterede egenskaber for afgrænset tekstformat.

  • Citat al tekst: Omslut alle værdier i anførselstegn.

  • Filtypenavn: Det filtypenavn, der bruges til at navngive outputfilerne, .csvf.eks. , .txt.

  • Maksimalt antal rækker pr. fil: Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil.

  • Præfiks for filnavn: Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager.

Tabeloversigt

Afgrænset tekst som kilde

Følgende egenskaber understøttes i afsnittet kopiaktivitetskilde, når du bruger afgrænset tekstformat.

Navn Beskrivelse Værdi Kræves JSON-scriptegenskab
 Filformat Det filformat, du vil bruge. Afgrænset tekst Ja type (under datasetSettings):
Afgrænset tekst
Komprimeringstype Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Vælg mellem:
Ingen
bzip2
gzip
Deflatere
ZipDeflate
TarGzip
tjære
Nr. type (under compression):

bzip2
gzip
Deflatere
ZipDeflate
TarGzip
tjære
Bevar zip-filnavnet som mappe Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. Gælder, når du vælger ZipDeflate-komprimering . Markeret eller fravælg Nej preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevar komprimering af filnavnet som mappe Angiver, om det komprimerede kildefilnavn skal bevares som mappestruktur under kopiering. Gælder, når du vælger TarGzip/tjærekomprimering . Markeret eller fravælg Nr. preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsniveau  Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. Optimal eller hurtigste Nej niveau (under compression):
Hurtigste
Optimal
Kolonneafgrænser  De tegn, der bruges til at adskille kolonner i en fil.  < det markerede kolonneafgrænser >
komma , (som standard)
Nr. columnDelimiter
Rækkeafgrænser Det tegn, der bruges til at adskille rækker i en fil. < det markerede rækkeafgrænser >
\r,\n (som standard) eller r\n
Nej rowDelimiter
Kodning Den kodningstype, der bruges til at læse/skrive testfiler. "UTF-8" (som standard),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nej encodingName
Escape-tegn Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en citeret værdi. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. < det valgte escape-tegn >
omvendt skråstreg \ (som standard)
Nr. escapeChar
Anførselstegn Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. < det valgte anførselstegn >
dobbelte anførselstegn " (som standard)
Nr. quoteChar
Første række som overskrift Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. Markeret eller ikke markeret Nr. firstRowAsHeader:
true eller false (standard)
Null-værdi Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng. < strengrepræsentationen af null-værdien >
tom streng (som standard)
Nr. nullValue

Afgrænset tekst som destination

Følgende egenskaber understøttes i afsnittet Destination for kopiaktivitet, når der bruges afgrænset tekstformat.

Navn Beskrivelse Værdi Kræves JSON-scriptegenskab
 Filformat Det filformat, du vil bruge. Afgrænset tekst Ja type (under datasetSettings):
Afgrænset tekst
Komprimeringstype Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Vælg mellem:
Ingen
bzip2
gzip
Deflatere
ZipDeflate
TarGzip
tjære
Nr. type (under compression):

bzip2
gzip
Deflatere
ZipDeflate
TarGzip
tjære
Bevar zip-filnavnet som mappe Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. Markeret eller fravælg Nej preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevar komprimering af filnavnet som mappe Angiver, om det komprimerede kildefilnavn skal bevares som mappestruktur under kopiering. Markeret eller fravælg Nr. preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsniveau  Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. Optimal eller hurtigste Nej niveau (under compression):
Hurtigste
Optimal
Kolonneafgrænser  De tegn, der bruges til at adskille kolonner i en fil.  < det markerede kolonneafgrænser >
komma , (som standard)
Nr. columnDelimiter
Rækkeafgrænser Det tegn, der bruges til at adskille rækker i en fil. < det markerede rækkeafgrænser >
\r,\n (som standard) eller r\n
Nej rowDelimiter
Kodning Den kodningstype, der bruges til at læse/skrive testfiler. "UTF-8" (som standard),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nej encodingName
Escape-tegn Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en citeret værdi. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. < det valgte escape-tegn >
omvendt skråstreg \ (som standard)
Nr. escapeChar
Anførselstegn Det enkelt tegn, der skal citere kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet en kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. < det valgte anførselstegn >
dobbelte anførselstegn " (som standard)
Nr. quoteChar
Første række som overskrift Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. Markeret eller ikke markeret Nr. firstRowAsHeader:
true eller false (standard)
Citerer al tekst Omslut alle værdier i anførselstegn. Markeret (standard) eller ikke markeret Nr. quoteAllText:
true (standard) eller false
Filtypenavn Det filtypenavn, der bruges til at navngive outputfilerne. < filtypenavnet >
.txt (som standard)
Nr. fileExtension
Maks. antal rækker pr. fil Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. < dine maksimale rækker pr. fil > Nr. maxRowsPerFile
Præfiks for filnavn Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager. < præfikset for filnavnet > Nr. fileNamePrefix