Condividi tramite


Formato testo delimitato in Data Factory in Microsoft Fabric

Questo articolo spiega come configurare il formato di testo delimitato nella pipeline di dati di Data Factory in Microsoft Fabric.

Funzionalità supportate

Il formato testo delimitato è supportato per le seguenti attività e connettori come origine e destinazione.

Categoria Connettore/attività
Connettori supportati Amazon S3
Amazon S3 Compatibile
Archiviazione BLOB di Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
File di Azure
File system
FTP
Google Cloud Storage
HTTP
File Lakehouse
Archiviazione in Oracle Cloud
SFTP
Attività supportata Attività Copy (origine/destinazione)
Attività Lookup
Attività GetMetadata
Attività Delete

Formato di testo delimitato nell'attività Copy

Per configurare il formato di testo delimitato, scegliere la connessione nell'origine o nella destinazione dell'attività Copy della pipeline di dati e poi selezionare Testo delimitato nell'elenco a discesa Formato file. Selezionare Impostazioni per configurare ulteriormente questo formato.

Screenshot che mostra le impostazioni del formato dei file.

Formato testo delimitato come origine

Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file vengono visualizzate le seguenti proprietà.

Screenshot che mostra le impostazioni del formato dei file di origine.

  • Tipo di compressione: codec di compressione usato per leggere i file di testo delimitato. Nell’elenco a discesa è possibile scegliere tra i tipi None, bzip2, gzip, deflate, ZipDeflate, TarGzip oppure tar.

    Se si seleziona ZipDeflate come tipo di compressione, nelle impostazioni Avanzate nella scheda Origine viene visualizzato Mantenere il nome del file ZIP come cartella.

    • Mantenere il nome del file ZIP come cartella: Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
      • Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in <specified file path>/<folder named as source zip file>/.
      • Se questa casella non è spuntata, il servizio scrive i file decompressi direttamente in <specified file path>. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.

    Se si seleziona TarGzip/tar come tipo di compressione, nelle impostazioni Avanzate nella scheda Origine viene visualizzato Mantenere il nome del file di compressione come cartella.

    • Mantenere il nome del file di compressione come cartella: Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia.
      • Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in <specified file path>/<folder named as source compressed file>/.
      • Se questa casella non è spuntata, il servizio scrive i file decompressi direttamente in <specified file path>. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.
  • Livello di compressione: Specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Fastest.

    • Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
    • Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
  • Delimitatore di colonna: I caratteri usati per separare le colonne in un file. Il valore predefinito è la virgola (,).

  • Delimitatore di riga: specificare il carattere usato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è un avanzamento riga \n.

  • Codifica: Tipo di codifica usato per leggere/scrivere file di test. Il valore predefinito è UTF-8.

  • Carattere di escape: Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata \. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.

  • Carattere virgolette: Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Il valore predefinito è doppie virgolette ". Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso.

  • Prima riga come intestazione: Specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione è deselezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività Copy richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all’ordinale (a partire da 1).

  • Valore Null: Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota.

In Impostazioni avanzate nella scheda Origine vengono esposte altre proprietà correlate al formato di testo delimitato.

Formato di testo delimitato come destinazione

Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file vengono visualizzate le seguenti proprietà.

Screenshot che mostra le impostazioni del formato del file di destinazione.

  • Tipo di compressione: codec di compressione usato per scrivere i file di testo delimitato. Nell’elenco a discesa è possibile scegliere tra i tipi None, bzip2, gzip, deflate, ZipDeflate, TarGzip oppure tar.

  • Livello di compressione: Specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Fastest.

    • Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
    • Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
  • Delimitatore di colonna: I caratteri usati per separare le colonne in un file. Il valore predefinito è la virgola (,).

  • Delimitatore di riga: Carattere usato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è un avanzamento riga \n.

  • Codifica: Tipo di codifica usato per scrivere file di test. Il valore predefinito è UTF-8.

  • Carattere di escape: Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata \. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.

  • Carattere virgolette: Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Il valore predefinito è doppie virgolette ". Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso.

  • Prima riga come intestazione: Specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione è deselezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività Copy richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all’ordinale (a partire da 1).

  • Valore Null: Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota.

In Impostazioni avanzate nella scheda Destinazione vengono visualizzate altre proprietà correlate al formato di testo delimitato.

  • Virgoletta tutto il testo: Racchiudere tutti i valori tra virgolette.

  • Estensione file: Estensione usata per denominare i file di output, ad esempio .csv, .txt.

  • Numero massimo di righe per file: Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare il numero massimo di righe per file.

  • Prefisso del nome file: Applicabile quando è configurato il numero massimo di righe per file. Specificare il prefisso del nome file durante la scrittura di dati in più file ha dato luogo a questo motivo: <fileNamePrefix>_00000.<fileExtension>. Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio basato su file o archivio dati abilitato per l'opzione di partizione.

Tabella riepilogativa

Testo delimitato come origine

Le seguenti proprietà sono supportate nella sezione Origine dell'attività Copy quando si utilizza il formato di testo delimitato.

Nome Descrizione Valore Richiesti Proprietà script JSON
 Formato di file Formato che si desidera usare. DelimitedText tipo (in datasetSettings):
DelimitedText
Tipo di compressione Codec di compressione usato per leggere file di testo delimitato. Scegliere tra:
Nessuno
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
No tipo (in compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Mantenere il nome del file ZIP come cartella Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. Si applica quando si seleziona il tipo di compressione ZipDeflate. Selezionare o deselezionare No preserveZipFileNameAsFolder
(in compressionProperties->type come ZipDeflateReadSettings)
Mantenere il nome del file di compressione come cartella Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia. Si applica quando si seleziona il tipo di compressione TarGzip/tar. Selezionare o deselezionare No preserveCompressionFileNameAsFolder
(in compressionProperties->type come TarGZipReadSettings o TarReadSettings)
Livello di compressione  Rapporto di compressione. I valori consentiti sono ottimale o più veloce. Ottimale oppure Fastest No livello (in compression):
Il più rapido
Ottimale
Delimitatore di colonna  I caratteri usati per separare le colonne in un file.  < delimitatore di colonna selezionato >
virgola , (impostazione predefinita)
No columnDelimiter
Delimitatore di riga carattere usato per separare le righe in un file. < delimitatore di riga selezionato >
\r,\n (impostazione predefinita) o r\n
No rowDelimiter
Encoding Tipo di codifica usato per leggere/scrivere file di test. "UTF-8" (predefinito),"UTF-8 senza BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Carattere di escape Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori. < carattere di escape selezionato >
barra rovesciata \ (impostazione predefinita)
No escapeChar
Carattere virgolette Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso. < carattere di virgoletta selezionato >
virgolette doppie " (impostazione predefinita)
No quoteChar
Prima riga come intestazione Specifica se trattare la prima riga dell’intervallo/foglio di lavoro come riga di intestazione con nomi di colonne. Selezionato o deselezionato No firstRowAsHeader:
true o false (impostazione predefinita)
valore NULL Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota. < rappresentazione in forma di stringa del valore Null >
stringa vuota (impostazione predefinita)
No nullValue

Testo delimitato come destinazione

Le seguenti proprietà sono supportate nella sezione Destinazione dell'attività Copy quando si utilizza il formato di testo delimitato.

Nome Descrizione Valore Richiesti Proprietà script JSON
 Formato di file Formato che si desidera usare. DelimitedText tipo (in datasetSettings):
DelimitedText
Tipo di compressione Codec di compressione usato per scrivere file di testo delimitato. Scegliere tra:
Nessuno
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
No tipo (in compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Mantenere il nome del file ZIP come cartella Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. Selezionare o deselezionare No preserveZipFileNameAsFolder
(in compressionProperties->type come ZipDeflateReadSettings)
Mantenere il nome del file di compressione come cartella Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia. Selezionare o deselezionare No preserveCompressionFileNameAsFolder
(in compressionProperties->type come TarGZipReadSettings o TarReadSettings)
Livello di compressione  Rapporto di compressione. I valori consentiti sono ottimale o più veloce. Ottimale oppure Fastest No livello (in compression):
Il più rapido
Ottimale
Delimitatore di colonna  I caratteri usati per separare le colonne in un file.  < delimitatore di colonna selezionato >
virgola , (impostazione predefinita)
No columnDelimiter
Delimitatore di riga carattere usato per separare le righe in un file. < delimitatore di riga selezionato >
\r,\n (impostazione predefinita) o r\n
No rowDelimiter
Encoding Tipo di codifica usato per leggere/scrivere file di test. "UTF-8" (predefinito),"UTF-8 senza BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Carattere di escape Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori. < carattere di escape selezionato >
barra rovesciata \ (impostazione predefinita)
No escapeChar
Carattere virgolette Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso. < carattere di virgoletta selezionato >
virgolette doppie " (impostazione predefinita)
No quoteChar
Prima riga come intestazione Specifica se trattare la prima riga dell’intervallo/foglio di lavoro come riga di intestazione con nomi di colonne. Selezionato o deselezionato No firstRowAsHeader:
true o false (impostazione predefinita)
Virgoletta tutto il testo Racchiudere tutti i valori tra virgolette. Sselezionato (impostazione predefinita) o non selezionato No quoteAllText:
true (valore predefinito) o false
Estensione file Estensione di file usata per denominare i file di output. < estensione file >
.txt (per impostazione predefinita)
No fileExtension
Numero massimo di righe per file Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare il numero massimo di righe per file. < numero massimo di righe per file > No maxRowsPerFile
Prefisso del nome file Applicabile quando è configurato il numero massimo di righe per file. Specificare il prefisso del nome file durante la scrittura di dati in più file ha dato luogo a questo motivo: <fileNamePrefix>_00000.<fileExtension>. Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio basato su file o archivio dati abilitato per l'opzione di partizione. < prefisso del nome file > No fileNamePrefix