Configurare Azure Data Lake Storage Gen2 in un'attività di copia
Questo articolo descrive come utilizzare l'attività di copia nella pipeline di dati per copiare dati da e verso Azure Data Lake Storage Gen2.
Formato supportato
Azure Data Lake Storage Gen2 supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.
- Formato Avro
- Formato binario
- Formato di testo delimitato
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configurazione supportata
Per la configurazione di ogni scheda nell'attività di copia, consultare rispettivamente le sezioni seguenti.
Generali
Consultare la guida sulle Impostazioni generali per configurare la scheda Impostazioni generali.
Origine
Le seguenti proprietà sono supportate per Azure Data Lake Storage Gen2 nella scheda Origine di un'attività di copia.
Sono richieste le seguenti proprietà:
Tipo di archivio dati: selezionare Esterno.
Connessione: selezionare una connessione di Azure Data Lake Storage Gen2 dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione di Azure Data Lake Storage Gen2 selezionando Nuovo.
Tipo di connessione: selezionare Azure Data Lake Storage Gen2.
Tipo di percorso file: è possibile scegliere Percorso file, Percorso file con caratteri jolly o Elenco di file come tipo di percorso file. La configurazione di ognuna di queste impostazioni è:
Percorso file: se si sceglie questo tipo, i dati possono essere copiati dal file system o dal percorso di cartella/file specificato in precedenza.
Percorso file con caratteri jolly: se si sceglie questo tipo, specificare il File system e i Percorsi con caratteri jolly.
File system: nome del file system di Data Lake Storage Gen2.
Percorsi con caratteri jolly: specificare il percorso della cartella o del file con caratteri jolly nel file system indicato per filtrare le cartelle o i file di origine.
I caratteri jolly consentiti sono:
*
(corrispondenza di zero o più caratteri) e?
(corrispondenza di zero caratteri o di un carattere singolo). Usare^
per applicare una sequenza di escape se il nome della cartella include caratteri jolly o tale carattere di escape. Per altri esempi, vedere Esempi di filtri per cartelle e file.Percorso cartella con caratteri jolly: specificare il percorso della cartella con caratteri jolly nel file system indicato per filtrare le cartelle di origine.
Nome file con caratteri jolly: specificare il nome file con caratteri jolly nel file system e nel percorso della cartella specificati (o nel percorso della cartella con caratteri jolly) per filtrare i file di origine.
Elenco di file: indica che si vuole copiare un determinato set di file. Specificare Percorso cartella e Percorso dell'elenco di file per puntare a un file di testo che include un elenco di file da copiare, un file per riga, che rappresenta il percorso relativo del percorso. Per altri esempi, vedere Esempi di elenco di file.
Percorso cartella: specificare il percorso di una cartella nel file system indicato. Questo argomento è obbligatorio.
Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
In modo ricorsivo: indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando è selezionata l'opzione In modo ricorsivo e la destinazione è un archivio basato su file, nella destinazione non viene copiata o creata una cartella o sottocartella vuota. Questa proprietà è selezionata per impostazione predefinita e non si applica quando si configura il Percorso dell'elenco dei file.
Formato di file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere gli articoli in Formato supportato per informazioni dettagliate.
In Avanzato è possibile specificare i seguenti campi:
Filtra in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.
Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.
Quando l'ora di inizio (UTC) ha un valore datetime ma l'ora di fine (UTC) è NULL, significa che verranno selezionati i file il cui attributo dell'ultima modifica è maggiore o uguale al valore datetime. Quando l'ora di fine (UTC) ha un valore datetime ma l'ora di inizio (UTC) è NULL, significa che verranno selezionati i file il cui attributo dell'ultima modifica è inferiore al valore datetime. Le proprietà possono essere NULL, il che significa che ai dati non verrà applicato alcun filtro sugli attributi del file.
Abilita l'individuazione della partizione: specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. Non è selezionata per impostazione predefinita e non è supportata quando si usa il formato di file binario.
Percorso radice della partizione: quando è abilitata l'individuazione della partizione, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.
Se ciò non è specificato, per impostazione predefinita,
- Quando si utilizza un percorso file o un elenco di file nell'origine, il percorso radice della partizione è il percorso configurato.
- Quando si usa il filtro delle cartelle con carattere jolly, il percorso radice della partizione corrisponde al percorso secondario che precede il primo carattere jolly.
Si supponga, ad esempio, di configurare il percorso come
root/folder/year=2020/month=08/day=27
:- - Se si specifica il percorso radice della partizione come
root/folder/year=2020
, l'attività di copia genererà altre due colonne mese e giorno con i valori rispettivamente "08" e "27", oltre alle colonne all'interno dei file. - Se il percorso radice della partizione non è specificato, non verrà generata alcuna colonna aggiuntiva.
Numero massimo di connessioni simultanee: questa proprietà indica il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. Per quest'ultimo è supportata l'espressione.
Destinazione
Le proprietà seguenti sono supportate per Azure Data Lake Storage Gen2 nella scheda Destinazione di un'attività di copia.
Sono richieste le seguenti proprietà:
- Tipo di archivio dati: selezionare Esterno.
- Connessione: selezionare una connessione di Azure Data Lake Storage Gen2 dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione di Azure Data Lake Storage Gen2 selezionando Nuovo.
- Tipo di connessione: selezionare Azure Data Lake Storage Gen2.
- Percorso file: selezionare Sfoglia per scegliere il file che si vuole copiare o compilare manualmente il percorso.
- Formato di file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere gli articoli in Formato supportato per informazioni dettagliate.
In Avanzato è possibile specificare i seguenti campi:
Comportamento di copia: definisce il comportamento di copia quando l'origine è costituita da file provenienti da un archivio dati basato su file. È possibile scegliere un comportamento dall'elenco a discesa.
- Gerarchia piatta: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I file di destinazione hanno nomi generati automaticamente.
- Unisci file: unisce tutti i file dalla cartella di origine in un unico file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
- Mantieni gerarchia: conserva la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Dimensione blocco (MB): specificare la dimensione del blocco in MB usata per scrivere dati in Azure Data Lake Storage Gen2. Per altre informazioni, vedere BLOB in blocchi. Il valore consentito è compreso tra 4 e 100 MB.
Per impostazione predefinita, la dimensione del blocco viene determinata automaticamente in base al tipo e ai dati dell'archivio di origine. Per la copia non binaria in Azure Data Lake Storage Gen2, la dimensione predefinita del blocco è 100 MB, in modo da contenere al massimo circa 4,75 TB di dati. Potrebbe non essere la soluzione ottimale se i dati non sono di grandi dimensioni. È possibile specificare esplicitamente una dimensione del blocco, assicurandosi che la dimensione del blocco (MB)*50000 sia sufficientemente grande per memorizzare i dati, altrimenti l'esecuzione dell'attività di copia avrà esito negativo.
Metadati: impostare metadati personalizzati durante la copia in una destinazione. Ogni oggetto nella matrice
metadata
rappresenta una colonna aggiuntiva.name
definisce il nome della chiave di metadati mentrevalue
indica il valore dei dati di tale chiave. Se si utilizza la funzionalità di conservazione degli attributi, i metadati specificati verranno uniti/sovrascritti con i metadati del file di origine.I valori dei dati consentiti sono:
$$LASTMODIFIED
: una variabile riservata indica di archiviare l'ora dell'ultima modifica dei file di origine. Si applica solo a un'origine basata su file con formato binario.- Expression
- Valore statico
Mapping
Per la configurazione della scheda Mapping, vedere Configurare i mapping nella scheda Mapping. Se si sceglie Binario come formato di file, il mapping non è supportato.
Impostazione
Per la configurazione della scheda Impostazioni, vedere Configurare le altre impostazioni nella scheda Impostazioni.
Riepilogo della tabella
Le tabelle seguenti contengono altre informazioni sull'attività di copia in Azure Data Lake Storage Gen2.
Informazioni sull'origine
Nome | Descrizione | valore | Richiesto | Proprietà dello script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dati di origine. | <connessione Azure Data Lake Storage Gen2> | Sì | connection |
Tipo di connessione | Tipo di connessione. Selezionare Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Sì | / |
Tipo percorso file | Il tipo di percorso file da usare. | • Percorso file • Percorso cartella con caratteri jolly, nome file con caratteri jolly •Elenco di file |
Sì | • folderPath, fileName, fileSystem • wildcardFolderPath, wildcardFileName, fileSystem • folderPath, fileName, fileListPath |
In modo ricorsivo | Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando è selezionata l'opzione In modo ricorsivo e la destinazione è un archivio basato su file, nella destinazione non viene copiata o creata una cartella o sottocartella vuota. Questa proprietà non si applica quando si configura il Percorso dell'elenco di file. | selezionato (impostazione predefinita) o deselezionato | No | recursive |
Filtra in base all'ultima modifica | I file con orario dell'ultima modifica compreso nell'intervallo [Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora viene applicata con il fuso orario UTC nel formato yyyy-mm-ddThh:mm:ss.fffZ . Queste proprietà possono essere ignorate, a indicare che non viene applicato alcun filtro di attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Abilita l'individuazione della partizione | Indica se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. | selezionato o non selezionato (impostazione predefinita) | No | enablePartitionDiscovery: true o false (valore predefinito) |
Partition Root Path (Percorso radice partizione) | Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati. | < percorso radice della partizione > | No | partitionRootPath |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Colonne aggiuntive | Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. Per quest'ultimo è supportata l'espressione. | • Name • Valore |
No | additionalColumns: • nome • valore |
Informazioni sulla destinazione
Nome | Descrizione | valore | Richiesto | Proprietà dello script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dati di destinazione. | <connessione Azure Data Lake Storage Gen2> | Sì | connection |
Tipo di connessione | Tipo di connessione. Selezionare Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Sì | / |
Percorso file | Percorso del file dei dati di destinazione. | < percorso del file > | Sì | folderPath, fileName, fileSystem |
Comportamento di copia | Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. | • Gerarchia piatta • Unisci file • Mantieni gerarchia |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Dimensione blocco (in MB) | Specificare la dimensione del blocco in MB quando si scrivono dati in Azure Data Lake Storage Gen2. Il valore consentito è compreso tra 4 e 100 MB. | <dimensione blocco> | No | blockSizeInMB |
Metadati UFX | Impostare metadati personalizzati quando si copia nella destinazione. | • $$LASTMODIFIED • Espressione • Valore statico |
No | metadata |