Configurer Oracle Cloud Storage dans une activité de copie
Cet article explique comment utiliser l’activité de copie dans un pipeline de données pour copier des données depuis Oracle Cloud Storage.
Prérequis
Pour copier des données à partir d’Oracle Cloud Storage, consultez API de compatibilité Objet Storage Amazon S3 pour connaître les conditions préalables requises et l’autorisation requise.
Format pris en charge
Oracle Cloud Storage prend en charge les formats de fichiers suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.
- Format Avro
- Format binaire
- Format de texte délimité
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Configuration prise en charge
Pour la configuration de chaque onglet sous une activité de copie, accédez aux sections suivantes :
Général
Pour la configuration de l'onglet Général, accédez à Général.
Source
Les propriétés suivantes sont prises en charge pour Oracle Cloud Storage sous l’onglet Source d’une activité de copie.
Les propriétés suivantes sont requises :
Type de magasin de données : sélectionnez Externe.
Connexion : sélectionnez une connexion Oracle Cloud Storage dans la liste des connexions. Si aucune connexion n’existe, créez une connexion Oracle Cloud Storage en sélectionnant Nouveau.
Type de chemin d’accès au fichier : vous pouvez choisir Chemin d’accès au fichier, Préfixe, Chemin du fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La configuration de chacun de ces paramètres est la suivante :
Chemin d’accès au fichier : les données peuvent être copiées à partir du compartiment ou du chemin de dossier/fichier spécifié dans Chemin d’accès au fichier.
Préfixe : spécifiez le compartiment et le préfixe.
Compartiment : spécifiez le nom du compartiment Oracle Cloud Stockage. Ceci est obligatoire.
Préfixe : le préfixe du nom de la clé Oracle Cloud Storage sous le compartiment spécifié pour filtrer les fichiers source Oracle Cloud Storage. Les clés sélectionnées sont les clés Oracle Cloud Storage dont le nom commence par
given_bucket/this_prefix
. Elles utilisent le filtre côté service d’Oracle Cloud Storage, qui offre de meilleures performances qu’un filtre de caractères génériques.
Chemin d’accès au fichier avec caractère générique : spécifiez le compartiment et les chemins génériques.
Compartiment : spécifiez le nom du compartiment Oracle Cloud Stockage. Ceci est obligatoire.
Chemins avec caractère générique : spécifiez le chemin d’accès au dossier ou au fichier avec des caractères génériques sous votre compartiment spécifié pour filtrer vos dossiers ou fichiers sources.
Les caractères génériques autorisés sont les suivants :
*
(correspond à zéro caractère ou plusieurs) et?
(correspond à zéro ou un caractère). Utilisez^
comme caractère d’échappement si le nom de votre dossier contient un caractère générique ou ce caractère d’échappement. Pour d’autres exemples, accédez à Exemples de filtres de dossier et de fichier.- Chemin d’accès au dossier avec caractères génériques : spécifiez le chemin d’accès au dossier avec des caractères génériques sous le compartiment spécifié pour filtrer les dossiers source.
- Nom de fichier avec caractères génériques : spécifiez le nom de fichier avec caractères génériques sous le compartiment et le chemin d’accès au dossier spécifiés (ou le chemin d’accès au dossier avec caractères génériques) pour filtrer les fichiers sources.
Liste de fichiers : spécifiez le chemin d’accès au dossier et le chemin d’accès à la liste de fichiers pour indiquer de copier un jeu de fichiers spécifié. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré. Pour plus d’exemples, accédez à Exemples de listes de fichiers.
- Chemin d’accès au dossier : spécifiez le chemin d’accès au dossier sous le compartiment spécifié. Ceci est obligatoire.
- Chemin d’accès à la liste de fichiers : spécifiez le chemin d’accès du fichier texte qui comprend une liste de fichiers que vous souhaitez copier.
De manière récursive : indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Lorsque la case est cochée, et que le récepteur est un magasin basé sur un fichier, aucun dossier ou sous-dossier vide n’est copié ni créé à la destination.
Format de fichier : sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge.
Sous Avancé, vous pouvez spécifier les champs suivants :
Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification que vous avez spécifiées. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
- Heure de début (UTC) : les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
- Heure de fin (UTC) : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
Lorsque Heure de début (UTC) a une valeur DateHeure, mais que Heure de fin (UTC) est NULL, cela signifie que les fichiers dont l’attribut de dernière modification est supérieur ou égal à la valeur DateHeure sont sélectionnés. Lorsque Heure de fin (UTC) a une valeur DateHeure, mais que Heure de début (UTC) est NULL, cela signifie que les fichiers dont l’attribut de dernière modification est inférieur à la valeur DateHeure sont sélectionnés. Les propriétés peuvent être NULL, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué aux données.
Activer la découverte des partitions : spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes d’une autre source. L’option n’est pas sélectionnée par défaut et n’est pas prise en charge lorsque vous utilisez le format de fichier binaire.
Chemin d’accès à la racine des partitions : lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
S’il n’est pas spécifié, par défaut :
- Quand vous utilisez un chemin d’accès au fichier ou la liste des fichiers sur la source, le chemin racine de la partition est le chemin que vous avez configuré.
- Quand vous utilisez un filtre de dossiers de caractères génériques, le chemin racine de la partition est le sous-chemin avant le premier caractère générique.
- Quand vous utilisez un préfixe, le chemin d’accès racine de la partition est le sous-chemin d’accès avant le dernier « / ».
Par exemple, en supposant que vous configurez le chemin d’accès ainsi
root/folder/year=2020/month=08/day=27
:- Si vous spécifiez le chemin d’accès racine de la partition en tant que
root/folder/year=2020
, l’activité de copie génère deux colonnes supplémentaires, mois et jour. Ces colonnes ont respectivement les valeurs « 08 » et « 27 », en plus des colonnes contenues dans les fichiers. - Si le chemin d’accès racine de la partition n’est pas spécifié, aucune colonne supplémentaire n’est générée.
Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Colonnes supplémentaires : ajoutez plus de colonnes de données pour stocker le chemin relatif ou la valeur statique des fichiers source. L'expression est prise en charge pour ce dernier.
Mappage
Pour la configuration de l’onglet Mappage, consultez Configurer vos mappages sous l’onglet Mappage. Si vous choisissez Binaire comme format de fichier, le mappage ne sera pas pris en charge.
Paramètres
Pour la configuration de l’onglet Paramètres, consultez Configurer vos autres paramètres sous l’onglet Paramètres.
Résumé du tableau
Le tableau suivant contient plus d’informations sur l’activité de copie dans Oracle Cloud Storage.
Informations sur la source
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Type de banque de données | Votre type de magasin de données. | Externe | Oui | / |
Connection | Votre connexion au magasin de données source. | <votre connexion Oracle Cloud Storage> | Oui | connection |
Type de chemin d’accès au fichier | Type de chemin d’accès au fichier utilisé pour obtenir les données sources. | • Chemin d’accès au fichier • Préfixe • Chemin d’accès au fichier générique • Liste de fichiers |
Oui | / |
Pour le Chemin d’accès au fichier | ||||
Compartiment | Nom du compartiment Oracle Cloud Storage. | <le nom de votre compartiment> | Oui | bucketName |
Directory | Chemin d’accès au dossier sous le compartiment spécifié. | <nom de votre dossier> | Non | folderpath |
Nom de fichier | Nom de fichier sous le compartiment et le chemin d’accès du dossier spécifiés. | <nom de votre fichier> | Non | fileName |
Pour le Préfixe | ||||
Compartiment | Nom du compartiment Oracle Cloud Storage. | <le nom de votre compartiment> | Oui | bucketName |
Préfixe | Le préfixe du nom de la clé Oracle Cloud Storage sous le compartiment spécifié pour filtrer les fichiers source Oracle Cloud Storage. | <votre préfixe> | Non | prefix |
Pour le Chemin d’accès au fichier générique | ||||
Compartiment | Nom du compartiment Oracle Cloud Storage. | <le nom de votre compartiment> | Oui | bucketName |
Chemin d’accès du dossier générique | Chemin d’accès au dossier avec des caractères génériques sous le compartiment spécifié pour filtrer les dossiers sources. | <chemin d’accès à votre dossier avec caractères génériques> | Non | wildcardFolderPath |
Nom du fichier avec des caractères génériques | Nom de fichier avec caractères génériques sous le compartiment et le chemin d’accès du dossier spécifiés (ou chemin d’accès du dossier en caractères génériques) pour filtrer les fichiers sources. | <nom de votre fichier avec caractères génériques> | Oui | wildcardFileName |
Pour la Liste des fichiers | ||||
Compartiment | Nom du compartiment Oracle Cloud Storage. | <le nom de votre compartiment> | Oui | bucketName |
Directory | Chemin d’accès au dossier sous le compartiment spécifié. | <nom de votre dossier> | Non | folderpath |
Chemin d’accès à la liste des fichiers | Indique de copier un ensemble de fichiers spécifié. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier. | < chemin d’accès à la liste de fichiers > | Non | fileListPath |
Format de fichier | Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. | / | Oui | / |
Recursively | Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Lorsque la case est cochée, et que le récepteur est un magasin basé sur un fichier, aucun dossier ou sous-dossier vide n’est copié ni créé à la destination. | sélectionné (par défaut) ou désélectionner | Non | recursive |
Filtrer par date de dernière modification | Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) sont filtrés pour un traitement ultérieur. L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ . Ces propriétés peuvent être ignorées, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers. |
datetime | Non | modifiedDatetimeStart modifiedDatetimeEnd |
Activer la découverte des partitions | Indique s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes d’une autre source. | sélectionné ou non sélectionné (par défaut) | Non | enablePartitionDiscovery : true ou false (par défaut) |
Chemin d’accès racine des partitions | Lorsque la découverte de partition est activée, spécifiez le chemin d’accès racine absolu afin de pouvoir lire les dossiers partitionnés en tant que colonnes de données. | < le chemin d’accès associé à une racine de votre partition > | Non | partitionRootPath |
Connexions simultanées maximales | La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | maxConcurrentConnections |
Colonnes supplémentaires | Ajoutez des colonnes de données supplémentaires au chemin relatif ou à la valeur statique des fichiers source du magasin. L’expression est prise en charge pour ce dernier. | • Nom • Valeur |
Non | additionalColumns : • nom • valeur |