Formato testo delimitato in Data Factory in Microsoft Fabric
Questo articolo spiega come configurare il formato di testo delimitato nella pipeline di dati di Data Factory in Microsoft Fabric.
Funzionalità supportate
Il formato testo delimitato è supportato per le seguenti attività e connettori come origine e destinazione.
Categoria | Connettore/attività |
---|---|
Connettori supportati | Amazon S3 |
Amazon S3 Compatibile | |
Archiviazione BLOB di Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
File di Azure | |
File system | |
FTP | |
Google Cloud Storage | |
HTTP | |
File Lakehouse | |
Archiviazione in Oracle Cloud | |
SFTP | |
Attività supportata | Attività Copy (origine/destinazione) |
Attività Lookup | |
Attività GetMetadata | |
Attività Delete |
Formato di testo delimitato nell'attività Copy
Per configurare il formato di testo delimitato, scegliere la connessione nell'origine o nella destinazione dell'attività Copy della pipeline di dati e poi selezionare Testo delimitato nell'elenco a discesa Formato file. Selezionare Impostazioni per configurare ulteriormente questo formato.
Formato testo delimitato come origine
Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file vengono visualizzate le seguenti proprietà.
Tipo di compressione: codec di compressione usato per leggere i file di testo delimitato. Nell’elenco a discesa è possibile scegliere tra i tipi None, bzip2, gzip, deflate, ZipDeflate, TarGzip oppure tar.
Se si seleziona ZipDeflate come tipo di compressione, nelle impostazioni Avanzate nella scheda Origine viene visualizzato Mantenere il nome del file ZIP come cartella.
- Mantenere il nome del file ZIP come cartella: Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
- Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in
<specified file path>/<folder named as source zip file>/
. - Se questa casella non è spuntata, il servizio scrive i file decompressi direttamente in
<specified file path>
. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.
- Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in
Se si seleziona TarGzip/tar come tipo di compressione, nelle impostazioni Avanzate nella scheda Origine viene visualizzato Mantenere il nome del file di compressione come cartella.
- Mantenere il nome del file di compressione come cartella: Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia.
- Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in
<specified file path>/<folder named as source compressed file>/
. - Se questa casella non è spuntata, il servizio scrive i file decompressi direttamente in
<specified file path>
. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.
- Se questa casella è spuntata (impostazione predefinita), il servizio scrive i file decompressi in
- Mantenere il nome del file ZIP come cartella: Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
Livello di compressione: Specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Fastest.
- Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
- Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
Delimitatore di colonna: I caratteri usati per separare le colonne in un file. Il valore predefinito è la virgola (
,
).Delimitatore di riga: specificare il carattere usato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è un avanzamento riga
\n
.Codifica: Tipo di codifica usato per leggere/scrivere file di test. Il valore predefinito è UTF-8.
Carattere di escape: Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata
\
. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.Carattere virgolette: Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Il valore predefinito è doppie virgolette
"
. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso.Prima riga come intestazione: Specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione è deselezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività Copy richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all’ordinale (a partire da 1).
Valore Null: Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota.
In Impostazioni avanzate nella scheda Origine vengono esposte altre proprietà correlate al formato di testo delimitato.
Formato di testo delimitato come destinazione
Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file vengono visualizzate le seguenti proprietà.
Tipo di compressione: codec di compressione usato per scrivere i file di testo delimitato. Nell’elenco a discesa è possibile scegliere tra i tipi None, bzip2, gzip, deflate, ZipDeflate, TarGzip oppure tar.
Livello di compressione: Specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Fastest.
- Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
- Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
Delimitatore di colonna: I caratteri usati per separare le colonne in un file. Il valore predefinito è la virgola (
,
).Delimitatore di riga: Carattere usato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è un avanzamento riga
\n
.Codifica: Tipo di codifica usato per scrivere file di test. Il valore predefinito è UTF-8.
Carattere di escape: Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata
\
. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.Carattere virgolette: Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Il valore predefinito è doppie virgolette
"
. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso.Prima riga come intestazione: Specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione è deselezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività Copy richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all’ordinale (a partire da 1).
Valore Null: Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota.
In Impostazioni avanzate nella scheda Destinazione vengono visualizzate altre proprietà correlate al formato di testo delimitato.
Virgoletta tutto il testo: Racchiudere tutti i valori tra virgolette.
Estensione file: Estensione usata per denominare i file di output, ad esempio
.csv
,.txt
.Numero massimo di righe per file: Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare il numero massimo di righe per file.
Prefisso del nome file: Applicabile quando è configurato il numero massimo di righe per file. Specificare il prefisso del nome file durante la scrittura di dati in più file ha dato luogo a questo motivo:
<fileNamePrefix>_00000.<fileExtension>
. Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio basato su file o archivio dati abilitato per l'opzione di partizione.
Tabella riepilogativa
Testo delimitato come origine
Le seguenti proprietà sono supportate nella sezione Origine dell'attività Copy quando si utilizza il formato di testo delimitato.
Nome | Descrizione | Valore | Richiesti | Proprietà script JSON |
---|---|---|---|---|
Formato di file | Formato che si desidera usare. | DelimitedText | Sì | tipo (in datasetSettings ):DelimitedText |
Tipo di compressione | Codec di compressione usato per leggere file di testo delimitato. | Scegliere tra: Nessuno bzip2 gzip deflate ZipDeflate TarGzip tar |
No | tipo (in compression ): bzip2 gzip deflate ZipDeflate TarGzip tar |
Mantenere il nome del file ZIP come cartella | Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. Si applica quando si seleziona il tipo di compressione ZipDeflate. | Selezionare o deselezionare | No | preserveZipFileNameAsFolder (in compressionProperties ->type come ZipDeflateReadSettings ) |
Mantenere il nome del file di compressione come cartella | Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia. Si applica quando si seleziona il tipo di compressione TarGzip/tar. | Selezionare o deselezionare | No | preserveCompressionFileNameAsFolder (in compressionProperties ->type come TarGZipReadSettings o TarReadSettings ) |
Livello di compressione | Rapporto di compressione. I valori consentiti sono ottimale o più veloce. | Ottimale oppure Fastest | No | livello (in compression ): Il più rapido Ottimale |
Delimitatore di colonna | I caratteri usati per separare le colonne in un file. | < delimitatore di colonna selezionato > virgola , (impostazione predefinita) |
No | columnDelimiter |
Delimitatore di riga | carattere usato per separare le righe in un file. | < delimitatore di riga selezionato > \r ,\n (impostazione predefinita) o r\n |
No | rowDelimiter |
Encoding | Tipo di codifica usato per leggere/scrivere file di test. | "UTF-8" (predefinito),"UTF-8 senza BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carattere di escape | Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori. | < carattere di escape selezionato > barra rovesciata \ (impostazione predefinita) |
No | escapeChar |
Carattere virgolette | Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso. | < carattere di virgoletta selezionato > virgolette doppie " (impostazione predefinita) |
No | quoteChar |
Prima riga come intestazione | Specifica se trattare la prima riga dell’intervallo/foglio di lavoro come riga di intestazione con nomi di colonne. | Selezionato o deselezionato | No | firstRowAsHeader: true o false (impostazione predefinita) |
valore NULL | Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è stringa vuota. | < rappresentazione in forma di stringa del valore Null > stringa vuota (impostazione predefinita) |
No | nullValue |
Testo delimitato come destinazione
Le seguenti proprietà sono supportate nella sezione Destinazione dell'attività Copy quando si utilizza il formato di testo delimitato.
Nome | Descrizione | Valore | Richiesti | Proprietà script JSON |
---|---|---|---|---|
Formato di file | Formato che si desidera usare. | DelimitedText | Sì | tipo (in datasetSettings ):DelimitedText |
Tipo di compressione | Codec di compressione usato per scrivere file di testo delimitato. | Scegliere tra: Nessuno bzip2 gzip deflate ZipDeflate TarGzip tar |
No | tipo (in compression ): bzip2 gzip deflate ZipDeflate TarGzip tar |
Mantenere il nome del file ZIP come cartella | Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. | Selezionare o deselezionare | No | preserveZipFileNameAsFolder (in compressionProperties ->type come ZipDeflateReadSettings ) |
Mantenere il nome del file di compressione come cartella | Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia. | Selezionare o deselezionare | No | preserveCompressionFileNameAsFolder (in compressionProperties ->type come TarGZipReadSettings o TarReadSettings ) |
Livello di compressione | Rapporto di compressione. I valori consentiti sono ottimale o più veloce. | Ottimale oppure Fastest | No | livello (in compression ): Il più rapido Ottimale |
Delimitatore di colonna | I caratteri usati per separare le colonne in un file. | < delimitatore di colonna selezionato > virgola , (impostazione predefinita) |
No | columnDelimiter |
Delimitatore di riga | carattere usato per separare le righe in un file. | < delimitatore di riga selezionato > \r ,\n (impostazione predefinita) o r\n |
No | rowDelimiter |
Encoding | Tipo di codifica usato per leggere/scrivere file di test. | "UTF-8" (predefinito),"UTF-8 senza BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carattere di escape | Carattere singolo per saltare le virgolette all'interno di un valore tra virgolette. Quando il carattere di escape è definito come stringa vuota, il carattere virgolette deve essere impostato anche come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori. | < carattere di escape selezionato > barra rovesciata \ (impostazione predefinita) |
No | escapeChar |
Carattere virgolette | Carattere singolo da racchiudere i valori di colonna tra virgolette se contiene il delimitatore di colonna. Quando il carattere virgolette viene definito come stringa vuota, significa che non vi sono caratteri virgolette e che il valore della colonna non è racchiuso tra virgolette e il carattere di escape viene usato per eseguire l'escape dal delimitatore di colonna e da sé stesso. | < carattere di virgoletta selezionato > virgolette doppie " (impostazione predefinita) |
No | quoteChar |
Prima riga come intestazione | Specifica se trattare la prima riga dell’intervallo/foglio di lavoro come riga di intestazione con nomi di colonne. | Selezionato o deselezionato | No | firstRowAsHeader: true o false (impostazione predefinita) |
Virgoletta tutto il testo | Racchiudere tutti i valori tra virgolette. | Sselezionato (impostazione predefinita) o non selezionato | No | quoteAllText: true (valore predefinito) o false |
Estensione file | Estensione di file usata per denominare i file di output. | < estensione file > .txt (per impostazione predefinita) |
No | fileExtension |
Numero massimo di righe per file | Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare il numero massimo di righe per file. | < numero massimo di righe per file > | No | maxRowsPerFile |
Prefisso del nome file | Applicabile quando è configurato il numero massimo di righe per file. Specificare il prefisso del nome file durante la scrittura di dati in più file ha dato luogo a questo motivo: <fileNamePrefix>_00000.<fileExtension> . Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio basato su file o archivio dati abilitato per l'opzione di partizione. |
< prefisso del nome file > | No | fileNamePrefix |