Condividi tramite


Configurare Amazon S3 Compatible in un'attività di copia

Questo articolo descrive come utilizzare l'attività di copia in una pipeline di dati per copiare dati da Amazon S3 Compatible.

Autorizzazioni necessarie

Per copiare dati da Amazon S3 Compatible, assicurarsi di aver ottenuto le seguenti autorizzazioni per le operazioni sugli oggetti Amazon S3 Compatible: s3:GetObject e s3:GetObjectVersion.

Inoltre, le autorizzazioni s3:ListAllMyBuckets e s3:ListBucket/s3:GetBucketLocation sono necessarie per operazioni come il test della connessione e l'esplorazione dalla radice.

Per l'elenco completo delle autorizzazioni di Amazon S3 Compatible, vedere Specifica delle autorizzazioni in un criterio sul sito AWS.

Formato supportato

Amazon S3 Compatible supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Configurazione supportata

Per la configurazione di ogni scheda nell'attività di copia, consultare rispettivamente le sezioni seguenti.

Generali

Consultare la guida sulle Impostazioni generali per configurare la scheda Impostazioni generali.

Origine

Le proprietà seguenti sono supportate per Amazon S3 Compatible nella scheda Origine di un'attività di copia.

Screenshot che mostra la scheda origine e l'elenco delle proprietà.

Sono richieste le seguenti proprietà:

  • Tipo di archivio dati: selezionare Esterno.

  • Connessione: selezionare una connessione Amazon S3 Compatible dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione Amazon S3 Compatible selezionando Nuovo.

  • Tipo di connessione: selezionare Amazon S3 Compatible per il tipo di connessione.

  • Tipo di percorso file: è possibile scegliere come tipo di percorso file Percorso file, Prefisso, Percorso file con caratteri jolly o Elenco di file. La configurazione per ogni impostazione è:

    • Percorso file: se si sceglie questo tipo, i dati possono essere copiati dal bucket specificato o dal bucket e dal percorso della cartella specificati.

    • Prefisso: se si sceglie questo tipo, specificare il Bucket e il Prefisso.

      • Bucket: specificare il nome del bucket S3 Compatible Storage. Questo argomento è obbligatorio.

      • Prefisso: specificare il prefisso per il nome della chiave S3 Compatible Storage nel bucket indicato per filtrare i file S3 Compatible Storage di origine. Le chiavi S3 Compatible Storage i cui nomi iniziano con bucket/this_prefix sono selezionate. Usa il filtro lato servizio S3 Compatible Storage, che garantisce prestazioni migliori rispetto a un filtro con caratteri jolly.

        Quando si usa il prefisso e si sceglie di copiare in una destinazione basata su file mantenendo la gerarchia, tenere presente che il percorso secondario dopo l'ultimo "/" nel prefisso viene mantenuto. Ad esempio, per l'origine bucket/folder/subfolder/file.txt si configura il prefisso folder/sub e quindi il percorso del file conservato è subfolder/file.txt.

      Screenshot che mostra il prefisso.

    • Percorso file con caratteri jolly: se si sceglie questo tipo, specificare il Bucket e i Percorsi con caratteri jolly.

      • Bucket: specificare il nome del bucket S3 Compatible Storage. Questo argomento è obbligatorio.

      • Percorsi con caratteri jolly: specificare il percorso della cartella o del file con caratteri jolly nel bucket specificato per filtrare le cartelle o i file di origine.

        I caratteri jolly consentiti sono: * (corrispondenza di zero o più caratteri) e ? (corrispondenza di zero caratteri o di un carattere singolo). Usare ^ per applicare una sequenza di escape se il nome della cartella include caratteri jolly o tale carattere di escape. Vedere altri esempi in Esempi di filtro file e cartelle. Screenshot che mostra il percorso file con caratteri jolly.Percorso cartella con caratteri jolly: percorso della cartella con caratteri jolly nel bucket specificato per filtrare le cartelle di origine.

        Nome file con caratteri jolly: il nome del file con caratteri jolly nel bucket e nel percorso della cartella specificati (o nel percorso della cartella con caratteri jolly) per filtrare i file di origine.

    • Elenco di file: se si seleziona questo tipo, specificare il Percorso cartella e il Percorso dell'elenco di file per indicare di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga, che rappresenta il percorso relativo del percorso configurato. Per altri esempi, vedere Esempi di elenco di file.

      Screenshot che mostra l'elenco di file.

      • Percorso cartella: specificare il percorso della cartella nel bucket indicato. Questo argomento è obbligatorio.
      • Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
  • Formato di file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere gli articoli in Formato supportato per informazioni dettagliate.

  • In modo ricorsivo: indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Se è selezionata l'opzione In modo ricorsivo e la destinazione è un archivio basato su file, nella destinazione non viene copiata o creata una cartella o sottocartella vuota. Questa proprietà è selezionata per impostazione predefinita e non si applica quando si configura il Percorso dell'elenco dei file.

In Avanzato è possibile specificare i seguenti campi:

  • Filtra in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica specificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.

    • Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
    • Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.

    Quando l'ora di inizio (UTC) ha un valore datetime ma l'ora di fine (UTC) è NULL, significa che verranno selezionati i file il cui attributo dell'ultima modifica è maggiore o uguale al valore datetime. Quando l'ora di fine (UTC) ha un valore datetime ma l'ora di inizio (UTC) è NULL, significa che verranno selezionati i file il cui attributo dell'ultima modifica è inferiore al valore datetime. Le proprietà possono essere NULL, il che significa che ai dati non verrà applicato alcun filtro sugli attributi del file.

  • Abilita l'individuazione della partizione: specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. Non è selezionata per impostazione predefinita e non è supportata quando si usa il formato di file binario.

    • Percorso radice della partizione: quando è abilitata l'individuazione della partizione, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.

      Se ciò non è specificato, per impostazione predefinita,

      • Quando si utilizza un percorso file o un elenco di file nell'origine, il percorso radice della partizione è il percorso configurato.
      • Quando si usa il filtro delle cartelle con carattere jolly, il percorso radice della partizione corrisponde al percorso secondario che precede il primo carattere jolly.
      • Quando si utilizza un prefisso, il percorso radice della partizione è il percorso secondario che precede l'ultimo "/".

      Si supponga, ad esempio, di configurare il percorso come root/folder/year=2020/month=08/day=27:

      • - Se si specifica il percorso radice della partizione come root/folder/year=2020, l'attività di copia genererà altre due colonne mese e giorno con i valori rispettivamente "08" e "27", oltre alle colonne all'interno dei file.
      • Se il percorso radice della partizione non è specificato, non verrà generata alcuna colonna aggiuntiva.

      Screenshot che mostra l'opzione Abilita l'individuazione della partizione.

  • Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.

  • Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. Per quest'ultimo è supportata l'espressione.

Destinazione

Le proprietà seguenti sono supportate per Amazon S3 Compatible nella scheda Destinazione di un'attività di copia.

Screenshot che mostra la scheda di destinazione e l'elenco delle proprietà.

Sono richieste le seguenti proprietà:

  • Tipo di archivio dati: selezionare Esterno.
  • Connessione: selezionare una connessione Amazon S3 Compatible dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione Amazon S3 Compatible selezionando Nuovo.
  • Tipo di connessione: selezionare Amazon S3 Compatible per il tipo di connessione.
  • Percorso file: i dati possono essere copiati nel bucket specificato o nel bucket e nel percorso della cartella specificati.
  • Formato di file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere gli articoli in Formato supportato per informazioni dettagliate.

In Avanzato è possibile specificare i seguenti campi:

  • Comportamento di copia: definisce il comportamento di copia quando l'origine è costituita da file provenienti da un archivio dati basato su file. È possibile scegliere un comportamento dall'elenco a discesa.

    • Gerarchia piatta: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I file di destinazione hanno nomi generati automaticamente.
    • Unisci file: unisce tutti i file dalla cartella di origine in un unico file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
    • Mantieni gerarchia: conserva la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
  • Numero massimo di connessioni simultanee: questa proprietà indica il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.

Mapping

Per la configurazione della scheda Mapping, vedere Configurare i mapping nella scheda Mapping. Se si sceglie Binario come formato di file, il mapping non sarà supportato.

Impostazione

Per la configurazione della scheda Impostazioni, vedere Configurare le altre impostazioni nella scheda Impostazioni.

Riepilogo della tabella

Le tabelle seguenti contengono altre informazioni sull'attività di copia in Amazon S3 Compatible.

Informazioni sull'origine

Nome Descrizione valore Richiesto Proprietà dello script JSON
Tipo di archivio dati Tipo di archivio dati. Esterno /
Connessione Connessione all'archivio dati di origine. <connessione Amazon S3 Compatible> connection
Tipo di connessione Selezionare un tipo di connessione. Amazon S3 Compatible /
Tipo percorso file Tipo di percorso del file utilizzato per ottenere i dati di origine. Percorso file
Prefisso
Percorso con caratteri jolly
Elenco di file
/
Per Percorso file
Bucket Nome del bucket S3 Compatible Storage. <nome del bucket> bucketName
Directory Percorso della cartella nel bucket specificato. <nome della cartella> No folderpath
Nome file Nome del file nel bucket e nel percorso della cartella specificati. <nome del file> No fileName
Per Prefisso
Bucket Nome del bucket S3 Compatible Storage. <nome del bucket> bucketName
Prefix Prefisso per il nome della chiave S3 Compatible Storage nel bucket indicato per filtrare i file S3 Compatible Storage di origine. <prefisso> No prefix
Per Percorso con caratteri jolly
Bucket Nome del bucket S3 Compatible Storage. <nome del bucket> bucketName
Percorso cartella con caratteri jolly Percorso della cartella con caratteri jolly nel bucket specificato per filtrare le cartelle di origine. <percorso della cartella con caratteri jolly> No wildcardFolderPath
Nome file con caratteri jolly Nome file con caratteri jolly nel bucket e nel percorso della cartella specificati, oppure nel percorso della cartella con caratteri jolly, per filtrare i file di origine. <nome file con caratteri jolly> wildcardFileName
Per Elenco di file
Bucket Nome del bucket S3 Compatible Storage. <nome del bucket> bucketName
Directory Percorso della cartella nel bucket specificato. <nome della cartella> No folderpath
Percorso dell'elenco di file Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga. < percorso elenco file > No fileListPath
Formato file Formato di file per i dati di origine. Per informazioni sui diversi formati di file, vedere gli articoli in Formato supportato per informazioni dettagliate. / /
In modo ricorsivo Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando è selezionata l'opzione In modo ricorsivo e la destinazione è un archivio basato su file, nella destinazione non viene copiata o creata una cartella o sottocartella vuota. Questa proprietà non si applica quando si configura il Percorso dell'elenco di file. selezionato (impostazione predefinita) o deselezionato No recursive
Filtra in base all'ultima modifica I file con orario dell'ultima modifica compreso nell'intervallo [Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora viene applicata con il fuso orario UTC nel formato yyyy-mm-ddThh:mm:ss.fffZ. Queste proprietà possono essere ignorate, a indicare che non viene applicato alcun filtro di attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Abilita l'individuazione della partizione Indica se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. selezionato o non selezionato (impostazione predefinita) No enablePartitionDiscovery:
true o false (valore predefinito)
Partition Root Path (Percorso radice partizione) Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati. < percorso radice della partizione > No partitionRootPath
Numero massimo di connessioni simultanee Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. <numero massimo di connessioni simultanee> No maxConcurrentConnections
Colonne aggiuntive Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. Per quest'ultimo è supportata l'espressione. • Name
• Valore
No additionalColumns:
• nome
• valore

Informazioni sulla destinazione

Nome Descrizione valore Richiesto Proprietà dello script JSON
Tipo di archivio dati Tipo di archivio dati. Esterno /
Connessione Connessione all'archivio dati di destinazione. <connessione Amazon S3 Compatible> connection
Tipo di connessione Selezionare un tipo di connessione. Amazon S3 Compatible /
Percorso file Percorso della cartella/file verso il file di destinazione. <percorso cartella/file> /
Bucket Nome del bucket S3 Compatible Storage. <nome del bucket> bucketName
Directory Percorso della cartella nel bucket specificato. <nome della cartella> No folderpath
Nome file Nome del file nel bucket e nel percorso della cartella specificati. <nome del file> No fileName
Comportamento di copia Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. • Gerarchia piatta
• Unisci file
• Mantieni gerarchia
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Numero massimo di connessioni simultanee Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. <numero massimo di connessioni simultanee> No maxConcurrentConnections