Configurare Google Cloud Storage in un'attività di copia
Questo articolo illustra come usare l'attività di copia di Azure Data Factory per copiare dati da Google Cloud Storage.
Prerequisiti
È necessario configurare l'account di Google Cloud Storage come segue:
Abilitare l'interoperabilità per l'account di Google Cloud Storage.
Impostare il progetto predefinito, che contiene i dati da copiare dal contenitore GCS di destinazione.
Creare un account del servizio e definire i livelli corretti di autorizzazioni usando la funzione Cloud IAM in GCP.
Generare le chiavi di accesso per questo account del servizio.
Autorizzazioni necessarie
Per copiare dati da Google Cloud Storage, assicurarsi di avere ottenuto le autorizzazioni seguenti per le operazioni sugli oggetti: storage.objects.get
e storage.objects.list
.
Se si usa l'interfaccia utente per creare, è necessaria un'autorizzazione aggiuntiva storage.buckets.list
per operazioni come il test della connessione al servizio collegato e l'esplorazione dalla radice.
Per l'elenco completo dei ruoli di Google Cloud Storage e delle autorizzazioni associate, vedere Ruoli IAM per Cloud Storage nel sito Google Cloud.
Formato supportato
Google Cloud Storage supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.
- Formato Avro
- Formato binario
- Formato di testo delimitato
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configurazione supportata
Per la configurazione di ogni scheda nell'attività di copia, passare rispettivamente alle sezioni seguenti.
Generali
Per configurazione della scheda Generale, passare a Generale.
Origine
Le proprietà seguenti sono supportate per Google Cloud Storage nella scheda Origine di un'attività di copia.
Per ogni oggetto sono necessarie le proprietà seguenti:
Tipo di archivio dati: selezionare Esterno.
Connessione: selezionare una connessione a Google Cloud Storage dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione a Google Cloud Storage selezionando Nuovo.
Tipo di percorso file: è possibile scegliere Percorso file, Prefisso, Percorso file con caratteri jolly o Elenco di file come tipo di percorso del file. La configurazione di ognuna di queste impostazioni è:
Percorso file: se si sceglie questo tipo, i dati possono essere copiati dal bucket o dal percorso di cartella/file specificato in Percorso file.
Prefisso: se si sceglie questo tipo, specificare il bucket e il prefisso.
Bucket: specificare il nome del bucket di Google Cloud Storage. Questo argomento è obbligatorio.
Prefisso: prefisso per il nome della chiave di Google Cloud Storage nel bucket specificato per filtrare i file di Google Cloud Storage di origine. Le chiavi di Oracle Cloud Storage i cui nomi iniziano con
given_bucket/this_prefix
sono selezionate. Usa il filtro lato servizio di Oracle Cloud Storage, che offre prestazioni migliori rispetto a un filtro con carattere jolly.
Percorso file con caratteri jolly: se si sceglie questo tipo, specificare il Bucket e i Percorsi con caratteri jolly.
Bucket: specificare il nome del bucket di Google Cloud Storage. Questo argomento è obbligatorio.
Percorsi con caratteri jolly: Specificare il percorso della cartella o del file con caratteri jolly nel tuo bucket per filtrare i file di origine.
I caratteri jolly consentiti sono:
*
(corrispondenza di zero o più caratteri) e?
(corrispondenza di zero caratteri o di un carattere singolo). Usare^
per applicare una sequenza di escape se il nome della cartella include caratteri jolly o tale carattere di escape. Per altri esempi, passare a Esempi di filtro file e cartelle.Percorso cartella con caratteri jolly: Specificare il percorso della cartella con caratteri jolly nel tuo bucket per filtrare i file di origine.
Nome file con caratteri jolly: Specificare il nome del file con caratteri jolly nel percorso del bucket e della cartella specificati, oppure nel percorso della cartella con carattere jolly, per filtrare i file di origine.
Elenco di file: se si seleziona questo tipo, specificare il Percorso cartella e il Percorso dell'elenco di file per indicare di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga, che rappresenta il percorso relativo del percorso configurato nel set di dati. Per altri esempi, passare a Esempi di elenco di file.
- Percorso della cartella: specificare il percorso della cartella nel bucket specificato. Questo argomento è obbligatorio.
- Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
Ricorsivo: Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando questa casella di controllo è selezionata e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione.
Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere articoli in Formato supportato per informazioni dettagliate.
Sotto Avanzate, è possibile specificare i campi seguenti:
Filtra in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica specificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file.
- Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
- Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.
Quando Ora di inizio (UTC) ha un valore datetime ma Ora di fine (UTC) è NULL, vengono selezionati i file il cui ultimo attributo modificato è maggiore o uguale al valore datetime. Quando Ora di fine (UTC) ha un valore datetime ma Ora di inizio (UTC) è NULL vengono selezionati i file il cui ultimo attributo modificato è minore del valore datetime. Le proprietà possono essere NULL, a indicare che ai dati non verrà applicato alcun filtro attributo di file.
Abilitare individuazione partizionamento: specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. Non è selezionata per impostazione predefinita e non è supportata quando si usa il formato di file binario.
Percorso radice della partizione: quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.
Se ciò non è specificato, per impostazione predefinita,
- Quando si usa il percorso del file o l'elenco di file nell'origine, il percorso radice della partizione è il percorso che hai configurato.
- Quando si usa il filtro delle cartelle con carattere jolly, il percorso radice della partizione corrisponde al percorso secondario che precede il primo carattere jolly.
- - Quando si usa il prefisso, il percorso radice della partizione è sottopercorso prima dell'ultimo "/".
Si supponga, ad esempio, di configurare il percorso come
root/folder/year=2020/month=08/day=27
:- Se si specifica il percorso radice della partizione come
root/folder/year=2020
, l'attività di copia genererà altre due colonne mese e giorno, rispettivamente con il valore "08" e "27", oltre alle colonne all'interno dei file. - Se il percorso radice della partizione non è specificato, non verrà generata alcuna colonna aggiuntiva.
Connessioni massime simultanee: il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima.
Destinazione
Le proprietà seguenti sono supportate per Google Cloud Storage nella scheda Origine di un'attività di copia.
Per ogni oggetto sono necessarie le proprietà seguenti:
- Tipo di archivio dati: selezionare Esterno.
- Connessione: selezionare una connessione a Google Cloud Storage dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione a Google Cloud Storage selezionando Nuovo.
- Percorso file: i dati possono essere copiati nel bucket specificato o nel bucket e nel percorso della cartella specificati.
- Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere articoli in Formato supportato per informazioni dettagliate.
Sotto Avanzate, è possibile specificare i campi seguenti:
Comportamento di copia: si definisce comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. È possibile scegliere un comportamento dall'elenco a discesa.
- - FlattenHierarchy: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I nomi dei file di destinazione vengono generati automaticamente.
- Unire i file: unisce tutti i file della cartella di origine in un solo file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
- PreserveHierarchy: mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
Connessioni massime simultanee: il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Mapping
Per la configurazione della scheda Mapping, passare a Configurare i mapping nella scheda Mapping. Se si sceglie Binary come formato di file, il mapping non sarà supportato.
Impostazione
Per la configurazione della scheda Impostazioni, vedere Configurare le altre impostazioni nella scheda Impostazioni.
Tabella di riepilogo
Le tabelle seguenti contengono altre informazioni sull'attività di copia in Google Cloud Storage.
Informazioni sull'origine
Nome | Descrizione | valore | Richiesto | Proprietà script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dei dati di origine. | <connessione a Google Cloud Storage> | Sì | connection |
Tipo percorso file | Tipo di percorso del file utilizzato per ottenere i dati di origine. | • Percorso di file • Prefisso • Percorso file con caratteri jolly • Elenco di file |
Sì | / |
Per Percorso file | ||||
Bucket | Nome del bucket di Oracle Cloud Storage. | <nome del bucket> | Sì | bucketName |
Directory | Percorso della cartella nel bucket specificato. | <nome della cartella> | No | folderPath |
Nome file | Nome del file nel bucket e nel percorso della cartella specificati. | <il nome al tuo file> | No | fileName |
Per prefisso | ||||
Bucket | Nome del bucket di Oracle Cloud Storage. | <nome del bucket> | Sì | bucketName |
Prefix | Prefisso per il nome della chiave Oracle Cloud Storage nel bucket specificato configurato nel set di dati per filtrare i file Oracle Cloud Storage di origine. | <Prefisso> | No | prefix |
Per Percorso file con caratteri jolly | ||||
Bucket | Nome del bucket di Oracle Cloud Storage. | <nome del bucket> | Sì | bucketName |
Percorso cartella con caratteri jolly | Percorso della cartella con caratteri jolly per filtrare le cartelle di origine. | <percorso della cartella con caratteri jolly> | No | wildcardFolderPath |
Nome file con caratteri jolly | Nome file con caratteri jolly nel percorso del bucket e della cartella specificati, oppure nel percorso della cartella con carattere jolly, per filtrare i file di origine. | <nome file con caratteri jolly> | Sì | wildcardFileName |
Per Elenco di file | ||||
Bucket | Nome del bucket di Oracle Cloud Storage. | <nome del bucket> | Sì | bucketName |
Directory | Percorso della cartella nel bucket specificato. | <nome della cartella> | No | folderPath |
Percorso dell’elenco di file | Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga. | < percorso elenco file > | No | fileListPath |
Formato file | Formato di file per i dati di origine. Per informazioni sui diversi formati di file, vedere articoli in Formato supportato per informazioni dettagliate. | / | Sì | / |
Ricorsivo | Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando questa casella di controllo è selezionata e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione. | selezionato (impostazione predefinita) o deselezionare | No | recursive |
Filtra per data ultima modifica | I file con ora dell'ultima modifica nell'intervallo (Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora viene applicata con il fuso orario UTC nel formato yyyy-mm-ddThh:mm:ss.fffZ . Queste proprietà possono essere ignorate, a indicare che non viene applicato alcun filtro di attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Abilitare l'individuazione delle partizioni | Specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. | selezionato o non selezionato (impostazione predefinita) | No | enablePartitionDiscovery: true o false (valore predefinito) |
Partition Root Path (Percorso radice partizione) | Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati. | < Partizione Percorso radice > | No | partitionRootPath |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <Numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Colonne aggiuntive | Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. | • Nome • Valore |
No | additionalColumns: • Nome • Valore |
Informazioni sulla destinazione
Nome | Descrizione | valore | Richiesto | Proprietà script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dati di destinazione. | <connessione a Google Cloud Storage> | Sì | connection |
Percorso file | Aggiungere il file alla cartella di destinazione. | < percorso cartella/file> | Sì | / |
Bucket | Nome del bucket di Oracle Cloud Storage. | <nome del bucket> | Sì | bucketName |
Directory | Percorso della cartella nel bucket specificato. | <nome della cartella> | No | folderPath |
Nome file | Nome del file nel bucket e nel percorso della cartella specificati. | <il nome al tuo file> | No | fileName |
Comportamento di copia | Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. | • Appiattire la gerarchia • Unire i file • Preserve hierarchy |
No | copyBehavior: flattenHierarchy mergeFiles preserveHierarchy |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <Numero massimo di connessioni simultanee> | No | maxConcurrentConnections |