Oracle Cloud Storage configureren in een kopieeractiviteit
In dit artikel wordt beschreven hoe u de kopieeractiviteit in een gegevenspijplijn gebruikt om gegevens te kopiëren uit Oracle Cloud Storage.
Vereisten
Als u gegevens uit Oracle Cloud Storage wilt kopiëren, raadpleegt u de Compatibiliteits-API van Object Storage Amazon S3 voor de vereisten en de vereiste machtiging.
Ondersteunde indeling
Oracle Cloud Storage ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.
- Avro-indeling
- Binaire indeling
- Tekstindeling met scheidingstekens
- Excel-indeling
- JSON-indeling
- ORC-indeling
- Parquet-indeling
- XML-indeling
Ondersteunde configuratie
Ga naar de volgende secties voor de configuratie van elk tabblad op een kopieeractiviteit:
Algemeen
Voor de configuratie van het tabblad Algemeen gaat u naar Algemeen.
Bron
De volgende eigenschappen worden ondersteund voor Oracle Cloud Storage op het tabblad Bron van een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
Gegevensarchieftype: Selecteer Extern.
Verbinding maken ion: Selecteer een Oracle Cloud Storage-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Oracle Cloud Storage-verbinding door Nieuw te selecteren.
Bestandstype: U kunt het bestandspad, het voorvoegsel, het pad naar het jokerteken of de lijst met bestanden kiezen als bestandspadtype. De configuratie van elk van deze instellingen is:
Bestandspad: de gegevens kunnen worden gekopieerd uit de opgegeven bucket of map/bestandspad dat is opgegeven in het bestandspad.
Voorvoegsel: Geef de bucket en het voorvoegsel op.
Bucket: Geef de naam van de Oracle Cloud Storage-bucket op. Het is vereist.
Voorvoegsel: Voorvoegsel voor de naam van de Oracle Cloud Storage-sleutel onder de opgegeven bucket om bronbestanden van Oracle Cloud Storage te filteren. Oracle Cloud Storage-sleutels waarvan de namen beginnen met
given_bucket/this_prefix
geselecteerd. Het maakt gebruik van het servicefilter van Oracle Cloud Storage, dat betere prestaties biedt dan een jokertekenfilter.
Pad naar jokertekens: geef de paden Bucket en Jokertekens op.
Bucket: Geef de naam van de Oracle Cloud Storage-bucket op. Het is vereist.
Jokertekenpaden: geef de map of het bestandspad op met jokertekens onder de opgegeven bucket om uw bronmappen of bestanden te filteren.
Toegestane jokertekens zijn:
*
(komt overeen met nul of meer tekens) en?
(komt overeen met nul of één teken). Gebruik^
deze optie om te escapen als uw mapnaam een jokerteken of dit escape-teken bevat. Ga voor meer voorbeelden naar voorbeelden van mappen en bestandsfilters.- Pad naar jokertekens: geef het mappad op met jokertekens onder de opgegeven bucket om bronmappen te filteren.
- Bestandsnaam met jokertekens: geef de bestandsnaam op met jokertekens onder het opgegeven bucket- en mappad (of pad naar een jokerteken) om bronbestanden te filteren.
Lijst met bestanden: geef het mappad en het pad naar de bestandslijst op om aan te geven dat een opgegeven bestandsset moet worden gekopieerd. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd. Ga naar Voorbeelden van bestandslijsten voor meer voorbeelden.
- Mappad: Geef het pad naar de map onder de opgegeven bucket op. Het is vereist.
- Pad naar bestandslijst: geef het pad op van het tekstbestand dat een lijst met bestanden bevat die u wilt kopiëren.
Recursief: Geeft aan of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer dit selectievakje is ingeschakeld en het doel een archief op basis van bestanden is, wordt er geen lege map of submap gekopieerd of gemaakt op het doel.
Bestandsindeling: Selecteer de bestandsindeling die is toegepast in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg de artikelen in de ondersteunde indeling voor instellingen van verschillende bestandsindelingen.
Onder Geavanceerd kunt u de volgende velden opgeven:
Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums die u voor het laatst hebt opgegeven. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
- Begintijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan de geconfigureerde tijd.
- Eindtijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd kleiner is dan de geconfigureerde tijd.
Wanneer de begintijd (UTC) een datum/tijd-waarde heeft, maar de eindtijd (UTC) NULL is, betekent dit dat de bestanden waarvan het laatst gewijzigde kenmerk groter is dan of gelijk is aan de datum/tijd-waarde zijn geselecteerd. Wanneer de eindtijd (UTC) een datum/tijd-waarde heeft, maar de begintijd (UTC) NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd kleiner is dan de datum/tijd-waarde zijn geselecteerd. De eigenschappen kunnen NULL zijn, wat betekent dat er geen filter voor bestandskenmerken wordt toegepast op de gegevens.
Partitiedetectie inschakelen: geef op of de partities van het bestandspad moeten worden geparseerd en als andere bronkolommen moeten worden toegevoegd. Het is niet standaard geselecteerd en wordt niet ondersteund wanneer u binaire bestandsindeling gebruikt.
Hoofdpad partities: wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.
Als deze niet is opgegeven, gaat u als volgt te werk:
- Wanneer u een bestandspad of lijst met bestanden op de bron gebruikt, is het pad naar de partitiehoofdmap dat u hebt geconfigureerd.
- Wanneer u een filter voor jokertekens gebruikt, is het hoofdpad van de partitie het subpad vóór het eerste jokerteken.
- Wanneer u een voorvoegsel gebruikt, is het hoofdpad van de partitie het subpad vóór de laatste '/'.
Stel dat u het pad configureert als
root/folder/year=2020/month=08/day=27
:- Als u het pad naar de partitiehoofdmap opgeeft als
root/folder/year=2020
, genereert de kopieeractiviteit nog twee kolommen, maand en dag. Deze kolommen hebben respectievelijk de waarden 08 en 27, naast de kolommen in de bestanden. - Als het pad naar de partitiehoofdmap niet is opgegeven, wordt er geen extra kolom gegenereerd.
Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
Aanvullende kolommen: voeg meer gegevenskolommen toe om het relatieve pad of de statische waarde van de bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.
Toewijzing
Zie Uw toewijzingen configureren op het tabblad Toewijzing voor de configuratie van tabblad Toewijzingen. Als u Binair als bestandsindeling kiest, wordt toewijzing niet ondersteund.
Instellingen
Zie Voor Instellingen tabbladconfiguratie uw andere instellingen configureren op het tabblad Instellingen.
Tabelsamenvatting
De volgende tabel bevat meer informatie over de kopieeractiviteit in Oracle Cloud Storage.
Brongegevens
Naam | Beschrijving | Value | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Gegevensarchieftype | Het gegevensarchieftype. | Extern | Ja | / |
Verbinding | Uw verbinding met het brongegevensarchief. | <uw Oracle Cloud Storage-verbinding> | Ja | verbinding |
Bestandstype | Het bestandstype dat wordt gebruikt om brongegevens op te halen. | • Bestandspad • Voorvoegsel • Pad naar jokertekens • Lijst met bestanden |
Ja | / |
Voor bestandspad | ||||
Emmer | De naam van de Oracle Cloud Storage-bucket. | <de naam van uw bucket> | Ja | bucketName |
Directory | Het pad naar de map onder de opgegeven bucket. | <de naam van uw map> | Nee | mappad |
Bestandsnaam | De bestandsnaam onder het opgegeven bucket- en mappad. | <uw bestandsnaam> | Nee | fileName |
Voor voorvoegsel | ||||
Emmer | De naam van de Oracle Cloud Storage-bucket. | <de naam van uw bucket> | Ja | bucketName |
Voorvoegsel | Het voorvoegsel voor de naam van de Oracle Cloud Storage-sleutel onder de opgegeven bucket om de bronbestanden van Oracle Cloud Storage te filteren. | <uw voorvoegsel> | Nee | Voorvoegsel |
Voor pad naar jokertekens | ||||
Emmer | De naam van de Oracle Cloud Storage-bucket. | <de naam van uw bucket> | Ja | bucketName |
Pad naar map met jokertekens | Het pad naar de map met jokertekens onder de opgegeven bucket om bronmappen te filteren. | <uw mappad met jokertekens> | Nee | wildcardFolderPath |
Bestandsnaam met jokerteken | De bestandsnaam met jokertekens onder het opgegeven bucket- en mappad (of pad naar een jokerteken) om bronbestanden te filteren. | <uw bestandsnaam met jokertekens> | Ja | jokertekenBestandName |
Voor Lijst met bestanden | ||||
Emmer | De naam van de Oracle Cloud Storage-bucket. | <de naam van uw bucket> | Ja | bucketName |
Directory | Het pad naar de map onder de opgegeven bucket. | <de naam van uw map> | Nee | mappad |
Pad naar bestandslijst | Geeft aan om een opgegeven bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. | < bestandslijstpad > | Nee | fileListPath |
Bestandsindeling | De bestandsindeling voor uw brongegevens. Raadpleeg artikelen in ondersteunde indelingen voor meer informatie over verschillende bestandsindelingen. | / | Ja | / |
Recursief | Hiermee wordt aangegeven of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer dit selectievakje is ingeschakeld en het doel een archief op basis van bestanden is, wordt er geen lege map of submap gekopieerd of gemaakt op het doel. | geselecteerd (standaard) of selectie opheffen | Nee | Recursieve |
Filteren op laatst gewijzigd | De bestanden met de laatst gewijzigde tijd in het bereik [Begintijd, Eindtijd) worden gefilterd op verdere verwerking. De tijd wordt toegepast op de UTC-tijdzone in de notatie van yyyy-mm-ddThh:mm:ss.fffZ . Deze eigenschappen kunnen worden overgeslagen, wat betekent dat er geen filter voor bestandskenmerken wordt toegepast. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden. |
datetime | Nee | modifiedDatetimeStart modifiedDatetimeEnd |
Detectie van partities inschakelen | Hiermee wordt aangegeven of de partities van het bestandspad moeten worden geparseerd en toegevoegd als andere bronkolommen. | geselecteerd of niet geselecteerd (standaard) | Nee | enablePartitionDiscovery: waar of onwaar (standaard) |
Hoofdpad partities | Wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen. | < uw partitiehoofdpad > | Nee | partitionRootPath |
Maximum aantal gelijktijdige verbindingen | De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. | <maximum aantal gelijktijdige verbindingen> | Nee | maxConcurrent Verbinding maken ions |
Aanvullende kolommen | Voeg andere gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste. | • Naam •Waarde |
Nee | additionalColumns: •Naam •Waarde |