Konfigurer Oracle Cloud Storage i en kopiaktivitet
Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i et datasamlebånd til å kopiere data fra Oracle Cloud Storage.
Forutsetning
Hvis du vil kopiere data fra Oracle Cloud Storage, kan du se Object Storage Amazon S3 Compatibility API for forutsetningene og nødvendige tillatelser.
Støttet format
Oracle Cloud Storage støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.
- Avro-format
- Binærformat
- Tekstformat med skilletegn
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Støttet konfigurasjon
Hvis du vil ha konfigurasjonen av hver fane på en kopiaktivitet, går du til følgende inndelinger:
Generelt
Hvis du vil ha generell konfigurasjon av fanen Generelt , kan du gå til Generelt.
Kilde
Følgende egenskaper støttes for Oracle Cloud Storage på Kilde-fanen for en kopiaktivitet.
Følgende egenskaper er nødvendige:
Datalagertype: Velg ekstern.
Koble til ion: Velg en Oracle Cloud Storage-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Oracle Cloud Storage-tilkobling ved å velge Ny.
Filtype: Du kan velge Filbane, Prefiks, Jokertegnfilbane eller Liste over filer som filtype. Konfigurasjonen av hver av disse innstillingene er:
Filbane: Dataene kan kopieres fra den angitte samlingen eller mappen/filbanen som er angitt i Filbane.
Prefiks: Angi samling og prefiks.
Samling: Angi navnet på Oracle Cloud Storage-samlingen. Det er nødvendig.
Prefiks: Prefiks for Oracle Cloud Storage-nøkkelnavnet under den angitte samlingen for å filtrere kildefiler for Oracle Cloud Storage. Oracle Cloud Storage-nøkler med navn som begynner med
given_bucket/this_prefix
, er valgt. Det benytter Oracle Cloud Storages tjenestesidefilter, som gir bedre ytelse enn et jokertegnfilter.
Jokertegnfilbane: Angi banene Samling og Jokertegn.
Samling: Angi navnet på Oracle Cloud Storage-samlingen. Det er nødvendig.
Jokertegnbaner: Angi mappen eller filbanen med jokertegn under den angitte samlingen for å filtrere kildemappene eller filene.
Tillatte jokertegn er:
*
(samsvarer med null eller flere tegn) og?
(samsvarer med null eller ett enkelt tegn). Brukes^
til å unnslippe hvis mappenavnet har et jokertegn eller dette escape-tegnet inni. Hvis du vil ha flere eksempler, kan du gå til eksempler på mappe- og filfilter.- Jokertegnmappebane: Angi mappebanen med jokertegn under den angitte samlingen for å filtrere kildemapper.
- Jokertegnfilnavn: Angi filnavnet med jokertegn under angitt samlings- og mappebane (eller jokertegnmappebane) for å filtrere kildefiler.
Liste over filer: Angi mappebanen og Bane til fil-listen for å angi at et angitt filsett skal kopieres. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. Hvis du vil ha flere eksempler, kan du gå til Eksempler på filliste.
- Mappebane: Angi banen til mappen under den angitte samlingen. Det er nødvendig.
- Bane til filliste: Angi banen til tekstfilen som inneholder en liste over filer du vil kopiere.
Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Når denne avmerkingsboksen er valgt, og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet.
Filformat: Velg filformatet som brukes fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artiklene i støttet format.
Under Avansert kan du angi følgende felt:
Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene du har angitt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
- Starttidspunkt (UTC): Filene velges hvis den siste endrede tiden er større enn eller lik det konfigurerte tidspunktet.
- Sluttidspunkt (UTC): Filene velges hvis siste endringstidspunkt er mindre enn det konfigurerte tidspunktet.
Når Starttidspunkt (UTC) har en datetime-verdi, men sluttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributtet er større enn eller lik datetime-verdien, er valgt. Når sluttidspunkt (UTC) har en datetime-verdi, men Starttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributt er mindre enn datetime-verdien, er valgt. Egenskapene kan være NULL, noe som betyr at ingen filattributtfilter brukes på dataene.
Aktiver partisjonsoppdagelse: Angi om du vil analysere partisjonene fra filbanen og legge dem til som andre kildekolonner. Det er ikke valgt som standard og støttes ikke når du bruker binært filformat.
Partisjonsrotbane: Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.
Hvis det ikke er angitt, som standard:
- Når du bruker en filbane eller liste over filer på kilden, er partisjonsrotbanen banen du konfigurerte.
- Når du bruker et jokertegnmappefilter, er partisjonsrotbanen underbanen før det første jokertegnet.
- Når du bruker et prefiks, er partisjonsrotbanen underbanen før siste /.
Hvis du for eksempel antar at du konfigurerer banen som
root/folder/year=2020/month=08/day=27
:- Hvis du angir partisjonsrotbanen som
root/folder/year=2020
, genererer kopieringsaktiviteten ytterligere to kolonner, måned og dag. Disse kolonnene har verdiene henholdsvis 08 og 27, i tillegg til kolonnene i filene. - Hvis partisjonsrotbanen ikke er angitt, genereres det ingen ekstra kolonne.
Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
Flere kolonner: Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.
Tilordning
Se Konfigurere tilordninger under Tilordning-fanen for konfigurasjon av fanen Tilordning. Hvis du velger Binær som filformat, støttes ikke tilordning.
Innstillinger
Hvis du vil ha Innstillinger fanekonfigurasjon, kan du se Konfigurere de andre innstillingene under Innstillinger-fanen.
Tabellsammendrag
Tabellen nedenfor inneholder mer informasjon om kopieringsaktiviteten i Oracle Cloud Storage.
Kildeinformasjon
Navn | Beskrivelse | Verdi | Nødvendig | JSON-skriptegenskap |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Ekstern | Ja | / |
Koble til ion | Tilkoblingen til kildedatalageret. | <Oracle Cloud Storage-tilkoblingen> | Ja | Tilkobling |
Filtype | Filtypen som brukes til å hente kildedata. | • Filbane • Prefiks • Jokertegnfilbane • Liste over filer |
Ja | / |
Filbane | ||||
Bøtte | Navnet på Oracle Cloud Storage-samlingen. | <samlingsnavnet ditt> | Ja | bucketName |
Katalogen | Banen til mappen under den angitte samlingen. | <mappenavnet> | No | mappebane |
Filnavn | Filnavnet under den angitte samlings- og mappebanen. | <filnavnet ditt> | No | Filnavn |
For prefiks | ||||
Bøtte | Navnet på Oracle Cloud Storage-samlingen. | <samlingsnavnet ditt> | Ja | bucketName |
Prefiks | Prefikset for oracle Cloud Storage-nøkkelnavnet under den angitte samlingen for å filtrere kildefiler for Oracle Cloud Storage. | <prefikset> | No | Prefiks |
For jokertegnfilbane | ||||
Bøtte | Navnet på Oracle Cloud Storage-samlingen. | <samlingsnavnet ditt> | Ja | bucketName |
Jokertegnmappebane | Mappebanen med jokertegn under den angitte samlingen for å filtrere kildemapper. | <mappebanen med jokertegn> | No | wildcardFolderPath |
Jokertegnfilnavn | Filnavnet med jokertegn under angitt samlings- og mappebane (eller jokertegnmappebane) for å filtrere kildefiler. | <filnavnet med jokertegn> | Ja | wildcardFileName |
For liste over filer | ||||
Bøtte | Navnet på Oracle Cloud Storage-samlingen. | <samlingsnavnet ditt> | Ja | bucketName |
Katalogen | Banen til mappen under den angitte samlingen. | <mappenavnet> | No | mappebane |
Bane til filliste | Angir at du vil kopiere et angitt filsett. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje. | < fillistebane > | No | fileListPath |
Filformat | Filformatet for kildedataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format. | / | Ja | / |
Rekursivt | Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Når denne avmerkingsboksen er valgt, og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet. | valgt (standard) eller fjern merking | No | Rekursiv |
Filtrer etter sist endret | Filene med siste endringstidspunkt i området [Starttidspunkt, Sluttidspunkt) filtreres for videre behandling. Tiden brukes på UTC-tidssonen i formatet yyyy-mm-ddThh:mm:ss.fffZ . Disse egenskapene kan hoppes over, noe som betyr at det ikke brukes noe filattributtfilter. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Aktiver partisjonsoppdagelse | Angir om du vil analysere partisjonene fra filbanen og legge dem til som andre kildekolonner. | merket eller umerket (standard) | No | enablePartitionDiscovery: sann eller usann (standard) |
Partisjoner rotbane | Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner. | < partisjonsrotbanen > | No | partitionRootPath |
Maksimalt antall samtidige tilkoblinger | Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. | <maks samtidige tilkoblinger> | No | maxConcurrent Koble til ions |
Flere kolonner | Legg til andre datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. | • Navn •Verdi |
No | additionalColumns: •navn •Verdi |