Sdílet prostřednictvím


Formát textu s oddělovači ve službě Data Factory v Microsoft Fabric

Tento článek popisuje, jak nakonfigurovat formát textu s oddělovači v datovém kanálu služby Data Factory v Microsoft Fabric.

Podporované funkce

Formát textu s oddělovači je podporovaný pro následující aktivity a konektory jako zdroj a cíl.

Kategorie Konektor nebo aktivita
Podporovaný konektor Amazon S3
Kompatibilní s Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Systém souborů
FTP
Cloudové úložiště Googlu
HTTP
Soubory Lakehouse
Oracle Cloud Storage
SFTP
Podporovaná aktivita aktivita Copy (zdroj/cíl)
Aktivita Lookup
Aktivita GetMetadata
Aktivita odstranění

Formát textu s oddělovači v aktivitě kopírování

Pokud chcete nakonfigurovat textový formát s oddělovači, zvolte připojení ve zdroji nebo cíli aktivity kopírování datového kanálu a pak v rozevíracím seznamu formát souboru vyberte Oddělovač text. Vyberte Nastavení pro další konfiguraci tohoto formátu.

Snímek obrazovky s nastavením formátu souboru

Formát textu s oddělovači jako zdroj

Po výběru Nastavení v části Formát souboru se v dialogovém okně Nastavení formátu souboru zobrazí následující vlastnosti.

Snímek obrazovky znázorňující nastavení formátu zdrojového souboru

  • Typ komprese: Kodek komprese použitý ke čtení textových souborů s oddělovači. V rozevíracím seznamu si můžete vybrat z možností None, bzip2, gzip, deflate, ZipDeflate, TarGzip nebo tar type.

    Pokud jako typ komprese vyberete ZipDeflate , zobrazí se název souboru ZIP jako složka v části Upřesnit nastavení na kartě Zdroj .

    • Zachovat název souboru ZIP jako složku: Určuje, jestli se má při kopírování zachovat název zdrojového souboru ZIP jako struktura složek.
      • Pokud je toto políčko zaškrtnuté (výchozí), služba zapíše rozbalené soubory do <specified file path>/<folder named as source zip file>/.
      • Pokud toto políčko není zaškrtnuté, služba zapíše rozbalené soubory přímo do <specified file path>. Ujistěte se, že v různých zdrojových souborech ZIP nemáte duplicitní názvy souborů, abyste se vyhnuli závodnímu nebo neočekávanému chování.

    Pokud jako typ komprese vyberete TarGzip/tar , zachová se název souboru komprese jako složka v části Upřesnit nastavení na kartě Zdroj .

    • Zachovat název souboru komprese jako složku: Označuje, zda se má zachovat zdrojový komprimovaný název souboru jako struktura složek během kopírování.
      • Pokud je toto políčko zaškrtnuté (výchozí), služba zapíše dekomprimované soubory do <specified file path>/<folder named as source compressed file>/.
      • Pokud toto políčko není zaškrtnuté, služba zapíše dekomprimované soubory přímo do <specified file path>. Ujistěte se, že v různých zdrojových souborech ZIP nemáte duplicitní názvy souborů, abyste se vyhnuli závodnímu nebo neočekávanému chování.
  • Úroveň komprese: Při výběru typu komprese zadejte poměr komprese. Můžete si vybrat z optimálního nebo nejrychlejšího.

    • Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný.
    • Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese.
  • Oddělovač sloupců: Znaky použité k oddělení sloupců v souboru. Výchozí hodnota je čárka (,).

  • Oddělovač řádků: Zadejte znak použitý k oddělení řádků v souboru. Je povolený jenom jeden znak. Výchozí hodnota je odřádkování \n.

  • Kódování: Typ kódování použitý k čtení a zápisu testovacích souborů. Výchozí hodnota je UTF-8.

  • Řídicí znak: Jeden znak pro řídicí uvozovky uvnitř uvozovek. Výchozí hodnota je zpětné lomítko \. Pokud je řídicí znak definován jako prázdný řetězec, musí být znak uvozovky nastaven také jako prázdný řetězec. V takovém případě se ujistěte, že všechny hodnoty sloupců neobsahují oddělovače.

  • Znak uvozovky: Jeden znak pro uvozovky hodnoty sloupce, pokud obsahuje oddělovač sloupců. Výchozí hodnota je dvojité uvozovky ". Pokud je znak uvozovky definován jako prázdný řetězec, znamená to, že neexistuje znak uvozovky a hodnota sloupce není uvozována, a řídicí znak se používá k řídicímu znaku oddělovače sloupců a samotný.

  • První řádek jako záhlaví: Určuje, jestli má být první řádek považován za řádek záhlaví s názvy sloupců. Povolené hodnoty jsou vybrané a nevybrané (výchozí). Pokud není vybraný první řádek jako záhlaví, všimněte si, že náhled dat uživatelského rozhraní a výstup vyhledávací aktivity automaticky generují názvy sloupců jako Prop_{n} (počínaje 0), aktivita kopírování vyžaduje explicitní mapování ze zdroje na cíl a vyhledá sloupce podle řad (počínaje 1).

  • Hodnota Null: Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec.

V části Upřesnit nastavení na kartě Zdroj jsou vystaveny další vlastnosti související s textovým formátem s oddělovači.

Formát textu s oddělovači jako cíl

Po výběru Nastavení v části Formát souboru se v dialogovém okně Nastavení formátu souboru zobrazí následující vlastnosti.

Snímek obrazovky s nastavením formátu cílového souboru

  • Typ komprese: Kodek komprese použitý k zápisu textových souborů s oddělovači. V rozevíracím seznamu si můžete vybrat z možností None, bzip2, gzip, deflate, ZipDeflate, TarGzip nebo tar type.

  • Úroveň komprese: Při výběru typu komprese zadejte poměr komprese. Můžete si vybrat z optimálního nebo nejrychlejšího.

    • Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný.
    • Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese.
  • Oddělovač sloupců: Znaky použité k oddělení sloupců v souboru. Výchozí hodnota je čárka (,).

  • Oddělovač řádků: Znak použitý k oddělení řádků v souboru. Je povolený jenom jeden znak. Výchozí hodnota je odřádkování \n.

  • Kódování: Typ kódování použitý k zápisu testovacích souborů. Výchozí hodnota je UTF-8.

  • Řídicí znak: Jeden znak pro řídicí uvozovky uvnitř uvozovek. Výchozí hodnota je zpětné lomítko \. Pokud je řídicí znak definován jako prázdný řetězec, musí být znak uvozovky nastaven také jako prázdný řetězec. V takovém případě se ujistěte, že všechny hodnoty sloupců neobsahují oddělovače.

  • Znak uvozovky: Jeden znak pro uvozovky hodnoty sloupce, pokud obsahuje oddělovač sloupců. Výchozí hodnota je dvojité uvozovky ". Pokud je znak uvozovky definován jako prázdný řetězec, znamená to, že neexistuje znak uvozovky a hodnota sloupce není uvozována, a řídicí znak se používá k řídicímu znaku oddělovače sloupců a samotný.

  • První řádek jako záhlaví: Určuje, jestli má být první řádek považován za řádek záhlaví s názvy sloupců. Povolené hodnoty jsou vybrané a nevybrané (výchozí). Pokud není vybraný první řádek jako záhlaví, všimněte si, že náhled dat uživatelského rozhraní a výstup vyhledávací aktivity automaticky generují názvy sloupců jako Prop_{n} (počínaje 0), aktivita kopírování vyžaduje explicitní mapování ze zdroje na cíl a vyhledá sloupce podle řad (počínaje 1).

  • Hodnota Null: Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec.

V části Upřesnit nastavení na kartě Cíl se zobrazí další vlastnost související s textovým formátem s oddělovači.

  • Uvozovek veškerý text: Uzavře všechny hodnoty do uvozovek.

  • Přípona souboru: Přípona souboru použitá k pojmenování výstupních souborů, .csvnapříklad , . .txt

  • Maximální počet řádků na soubor: Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor.

  • Předpona názvu souboru: Platí při konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension>. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdroj je úložiště na základě souborů nebo možnost oddílu s povolenou možností úložiště dat.

Souhrn tabulky

Text s oddělovači jako zdroj

Následující vlastnosti jsou podporovány v části Zdroj aktivity kopírování při použití textového formátu s oddělovači.

Jméno Popis Hodnota Požadovaný Vlastnost skriptu JSON
 Formát souboru Formát souboru, který chcete použít. Text s oddělovači Ano typ (v části datasetSettings):
Text s oddělovači
Typ komprese Komprimační kodek používaný ke čtení textových souborů s oddělovači. Můžete vybrat:
Nic
bzip2
gzip
vyfouknout
ZipDeflate
TarGzip
dehet
No typ (v části compression):

bzip2
gzip
vyfouknout
ZipDeflate
TarGzip
dehet
Zachovat název souboru ZIP jako složku Určuje, zda chcete zachovat název zdrojového souboru ZIP jako strukturu složek během kopírování. Platí pro výběr komprese ZipDeflate . Výběr nebo zrušení výběru Ne preserveZipFileNameAsFolder
(pod compressionProperties->type as ZipDeflateReadSettings)
Zachování názvu komprimačního souboru jako složky Určuje, zda se má během kopírování zachovat zdrojový komprimovaný název souboru jako struktura složek. Platí pro výběr komprese TarGzip/tar . Výběr nebo zrušení výběru No preserveCompressionFileNameAsFolder
(pod compressionProperties->type jako TarGZipReadSettings nebo TarReadSettings)
Úroveň komprese  Poměr komprese. Povolené hodnoty jsou optimální nebo nejrychlejší. Optimální nebo nejrychlejší Ne úroveň (v části compression):
Nejrychlejší
Optimální
Oddělovač sloupců  Znaky použité k oddělení sloupců v souboru.  < oddělovač vybraného sloupce >
čárka , (ve výchozím nastavení)
No columnDelimiter
Oddělovač řádků Znak, který slouží k oddělení řádků v souboru. < oddělovač vybraných řádků >
\r,\n (ve výchozím nastavení) nebo r\n
Ne rowDelimiter
Kódování Typ kódování použitý k čtení a zápisu testovacích souborů. "UTF-8" (ve výchozím nastavení),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8869", "IBM88"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Ne encodingName
Řídicí znak Jeden znak pro řídicí uvozovky uvnitř uvozovky. Pokud je řídicí znak definován jako prázdný řetězec, musí být znak uvozovky nastaven také jako prázdný řetězec. V takovém případě se ujistěte, že všechny hodnoty sloupců neobsahují oddělovače. < vybraný řídicí znak >
zpětné lomítko \ (ve výchozím nastavení)
No escapeChar
Znak uvozovek Jeden znak pro uvozovky hodnoty sloupce, pokud obsahuje oddělovač sloupců. Pokud je znak uvozovky definován jako prázdný řetězec, znamená to, že neexistuje znak uvozovky a hodnota sloupce není uvozována, a řídicí znak se používá k řídicímu znaku oddělovače sloupců a samotný. < vybraný znak uvozovky >
dvojité uvozovky " (ve výchozím nastavení)
No quoteChar
První řádek jako záhlaví Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců. Vybraná nebo nevybraná No firstRowAsHeader:
true nebo false (výchozí)
Hodnota Null Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec. < řetězcová reprezentace hodnoty null >
prázdný řetězec (ve výchozím nastavení)
No nullValue

Text s oddělovači jako cíl

Následující vlastnosti jsou podporovány v části Cíl aktivity kopírování při použití textového formátu s oddělovači.

Jméno Popis Hodnota Požadovaný Vlastnost skriptu JSON
 Formát souboru Formát souboru, který chcete použít. Text s oddělovači Ano typ (v části datasetSettings):
Text s oddělovači
Typ komprese Komprimační kodek použitý k zápisu textových souborů s oddělovači. Můžete vybrat:
Nic
bzip2
gzip
vyfouknout
ZipDeflate
TarGzip
dehet
No typ (v části compression):

bzip2
gzip
vyfouknout
ZipDeflate
TarGzip
dehet
Zachovat název souboru ZIP jako složku Určuje, zda chcete zachovat název zdrojového souboru ZIP jako strukturu složek během kopírování. Výběr nebo zrušení výběru Ne preserveZipFileNameAsFolder
(pod compressionProperties->type as ZipDeflateReadSettings)
Zachování názvu komprimačního souboru jako složky Určuje, zda se má během kopírování zachovat zdrojový komprimovaný název souboru jako struktura složek. Výběr nebo zrušení výběru No preserveCompressionFileNameAsFolder
(pod compressionProperties->type jako TarGZipReadSettings nebo TarReadSettings)
Úroveň komprese  Poměr komprese. Povolené hodnoty jsou optimální nebo nejrychlejší. Optimální nebo nejrychlejší Ne úroveň (v části compression):
Nejrychlejší
Optimální
Oddělovač sloupců  Znaky použité k oddělení sloupců v souboru.  < oddělovač vybraného sloupce >
čárka , (ve výchozím nastavení)
No columnDelimiter
Oddělovač řádků Znak, který slouží k oddělení řádků v souboru. < oddělovač vybraných řádků >
\r,\n (ve výchozím nastavení) nebo r\n
Ne rowDelimiter
Kódování Typ kódování použitý k čtení a zápisu testovacích souborů. "UTF-8" (ve výchozím nastavení),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8869", "IBM88"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Ne encodingName
Řídicí znak Jeden znak pro řídicí uvozovky uvnitř uvozovky. Pokud je řídicí znak definován jako prázdný řetězec, musí být znak uvozovky nastaven také jako prázdný řetězec. V takovém případě se ujistěte, že všechny hodnoty sloupců neobsahují oddělovače. < vybraný řídicí znak >
zpětné lomítko \ (ve výchozím nastavení)
No escapeChar
Znak uvozovek Jeden znak pro uvozovky hodnoty sloupce, pokud obsahuje oddělovač sloupců. Pokud je znak uvozovky definován jako prázdný řetězec, znamená to, že neexistuje znak uvozovky a hodnota sloupce není uvozována, a řídicí znak se používá k řídicímu znaku oddělovače sloupců a samotný. < vybraný znak uvozovky >
dvojité uvozovky " (ve výchozím nastavení)
No quoteChar
První řádek jako záhlaví Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců. Vybraná nebo nevybraná No firstRowAsHeader:
true nebo false (výchozí)
Citace veškerého textu Uzavře všechny hodnoty do uvozovek. Vybraná (výchozí) nebo nevybraná No quoteAllText:
true (výchozí) nebo false
Přípona souboru Přípona souboru použitá k pojmenování výstupních souborů. < vaše přípona souboru >
.txt (ve výchozím nastavení)
No fileExtension
Maximální počet řádků na soubor Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. < maximální počet řádků na soubor > No maxRowsPerFile
Předpona názvu souboru Platí pro konfiguraci maximálního počtu řádků na soubor . Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension>. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdroj je úložiště na základě souborů nebo možnost oddílu s povolenou možností úložiště dat. < předpona názvu souboru > No fileNamePrefix