Del via


Konfigurere Google Cloud Storage i en kopiaktivitet

Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i datasamlebånd til å kopiere data fra og til Google Cloud Storage.

Forutsetning

Følgende oppsett kreves på Google Cloud Storage-kontoen:

  1. Aktiver interoperabilitet for Google Cloud Storage-kontoen din.

  2. Angi standardprosjektet som inneholder dataene du vil kopiere fra målsamlingen for Google Cloud Storage.

  3. Opprett en tjenestekonto og definer de riktige tillatelsesnivåene ved hjelp av Skybasert IAM på GCP.

  4. Generer tilgangstastene for denne tjenestekontoen.

    Skjermbilde som viser tilgangsnøkkelen for Google Cloud Storage.

Tillatelser som kreves

Hvis du vil kopiere data fra Google Cloud Storage, må du kontrollere at du har fått følgende tillatelser for objektoperasjoner: storage.objects.get og storage.objects.list.

I tillegg storage.buckets.list kreves tillatelse for operasjoner som testtilkobling og nettlesing fra roten.

Hvis du vil ha en fullstendig liste over Roller for Google Cloud Storage og tilknyttede tillatelser, kan du gå til IAM-roller for Skylagring på Google Cloud-nettstedet.

Støttet format

Google Cloud Storage støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.

Støttet konfigurasjon

Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til følgende inndelinger.

Generelt

Hvis du vil ha generell konfigurasjon av fanen Generelt , kan du gå til Generelt.

Kilde

Følgende egenskaper støttes for Google Cloud Storage under Kilde-fanen for en kopiaktivitet.

Skjermbilde som viser kildefanen og listen over egenskaper.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg ekstern.

  • Koble til ion: Velg en Google Cloud Storage-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, kan du opprette en ny Google Cloud Storage-tilkobling ved å velge Ny.

  • Filtype: Du kan velge Filbane, Prefiks, Jokertegnfilbane eller Liste over filer som filtype. Konfigurasjonen av hver av disse innstillingene er:

    • Filbane: Hvis du velger denne typen, kan dataene kopieres fra den angitte samlingen eller mappen/filbanen som er angitt i Filbane.

    • Prefiks: Hvis du velger denne typen, angir du samling og prefiks.

      • Samling: Angi navnet på Google Cloud Storage-samlingen. Det kreves.

      • Prefiks: Prefiks for Google Cloud Storage-nøkkelnavnet under den angitte samlingen for å filtrere kildefiler for Google Cloud Storage. Google Cloud Storage-nøkler med navn som begynner med given_bucket/this_prefix , er valgt. Den benytter Google Cloud Storages servicesidefilter, som gir bedre ytelse enn et jokertegnfilter.

        Skjermbilde som viser hvordan du konfigurerer filtypen prefiksfil.

    • Jokertegnfilbane: Hvis du velger denne typen, angir du samlings - og jokertegnbanene.

      • Samling: Angi navnet på Google Cloud Storage-samlingen. Det kreves.

      • Jokertegnbaner: Angi mappen eller filbanen med jokertegn under den angitte samlingen for å filtrere kildemappene eller filene.

        Tillatte jokertegn er: * (samsvarer med null eller flere tegn) og ? (samsvarer med null eller enkelttegn). Brukes ^ til å unnslippe hvis mappenavnet har jokertegn eller dette escape-tegnet inni. Hvis du vil ha flere eksempler, kan du gå til eksempler på mappe- og filfilter.

        Skjermbilde som viser hvordan du konfigurerer jokertegnfilbanen.

        • Jokertegnmappebane: Angi mappebanen med jokertegn under den angitte samlingen for å filtrere kildemapper.

        • Jokertegnfilnavn: Angi filnavnet med jokertegn under angitt samlings- og mappebane (eller jokertegnmappebane) for å filtrere kildefiler.

    • Liste over filer: Hvis du velger denne typen, angir du mappebanen og Bane til fil-listen for å angi å kopiere et gitt filsett. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. Hvis du vil ha flere eksempler, kan du gå til Eksempler på filliste.

      Skjermbilde som viser hvordan du konfigurerer liste over filer.

      • Mappebane: Angi banen til mappen under angitt samling. Det kreves.
      • Bane til filliste: Angi banen til tekstfilen som inneholder en liste over filer du vil kopiere.
  • Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Vær oppmerksom på at når denne avmerkingsboksen er valgt, og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet.

  • Filformat: Velg filformatet som brukes fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

Under Avansert kan du angi følgende felt:

  • Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene du har angitt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.

    • Starttidspunkt (UTC): Filene velges hvis den siste endrede tiden er større enn eller lik det konfigurerte tidspunktet.
    • Sluttidspunkt (UTC): Filene velges hvis siste endringstidspunkt er mindre enn det konfigurerte tidspunktet.

    Når Starttidspunkt (UTC) har datetime-verdi, men sluttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributtet er større enn eller lik datetime-verdien, velges. Når sluttidspunkt (UTC) har datetime-verdi, men Starttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributtet er mindre enn datetime-verdien, blir valgt. Egenskapene kan være NULL, noe som betyr at ingen filattributtfilter vil bli brukt på dataene.

  • Aktiver partisjonsgjenkjenning: Angi om du vil analysere partisjonene fra filbanen og legge dem til som flere kildekolonner. Det er ikke merket av som standard og støttes ikke når du bruker binært filformat.

    • Partisjonsrotbane: Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.

      Hvis det ikke er angitt, som standard,

      • Når du bruker filbanen eller listen over filer på kilden, er partisjonsrotbanen banen du konfigurerte.
      • Når du bruker jokertegnmappefilter, er partisjonsrotbanen underbanen før det første jokertegnet.
      • Når du bruker prefikset, er partisjonsrotbanen underbane før siste /.

      Hvis du for eksempel konfigurerer banen som root/folder/year=2020/month=08/day=27:

      • Hvis du angir partisjonsrotbane som root/folder/year=2020, vil kopieringsaktivitet generere to kolonner måned og dag med henholdsvis verdien 08 og 27, i tillegg til kolonnene i filene.
      • Hvis partisjonsrotbanen ikke er angitt, genereres ingen ekstra kolonne.

      Skjermbilde som viser Aktiver partisjonsoppdagelse.

  • Maksimal samtidig tilkobling: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

  • Flere kolonner: Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.

Mål

Følgende egenskaper støttes for Google Cloud Storage under Mål-fanen for en kopiaktivitet.

Skjermbilde som viser målfanen og listen over egenskaper.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg ekstern.
  • Koble til ion: Velg en Google Cloud Storage-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, kan du opprette en ny Google Cloud Storage-tilkobling ved å velge Ny.
  • Filbane: Dataene kan kopieres til den angitte samlingen eller den angitte samlings- og mappebanen.
  • Filformat: Velg filformatet som brukes fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

Under Avansert kan du angi følgende felt:

  • Kopier virkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge en virkemåte fra rullegardinlisten.

    • Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.
    • Flette filer: Slår sammen alle filer fra kildemappen til én fil. Hvis filnavnet er angitt, er det flettede filnavnet det angitte navnet. Ellers er det et automatisk generert filnavn.
    • Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til kildefilen til kildemappen er identisk med den relative banen til målfilen til målmappen.
  • Maksimalt antall samtidige tilkoblinger: Denne egenskapen angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

Tilordning

Se Konfigurere tilordninger under tilordningsfanen for fanen Tilordning. Hvis du velger Binær som filformat, støttes ikke tilordning.

Innstillinger

Gå til Konfigurer de andre innstillingene under innstillinger-fanen for konfigurasjon av Innstillinger-fanen.

Tabellsammendrag

Tabellene nedenfor inneholder mer informasjon om kopieringsaktiviteten i Google Cloud Storage.

Kildeinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Datalagertype Datalagertypen. Ekstern Ja /
Koble til ion Tilkoblingen til kildedatalageret. <Google Cloud Storage-tilkoblingen> Ja Tilkobling
Filtype Filtypen som brukes til å hente kildedata. Filbane
Prefiks
Jokertegnfilbane
Liste over filer
Ja /
Filbane
Bøtte Navnet på Google Cloud Storage-samlingen. <samlingsnavnet ditt> Ja bucketName
Katalogen Banen til mappen under den angitte samlingen. <mappenavnet> No mappebane
Filnavn Filnavnet under den angitte samlings- og mappebanen. <filnavnet ditt> No Filnavn
For prefiks
Bøtte Navnet på Google Cloud Storage-samlingen. <samlingsnavnet ditt> Ja bucketName
Prefiks Prefikset for Google Cloud Storage-nøkkelnavnet under den angitte samlingen for å filtrere kildefiler for Google Cloud Storage. <prefikset> No Prefiks
For jokertegnfilbane
Bøtte Navnet på Google Cloud Storage-samlingen. <samlingsnavnet ditt> Ja bucketName
Jokertegnmappebane Mappebanen med jokertegn under den angitte samlingen for å filtrere kildemapper. <mappebanen med jokertegn> No wildcardFolderPath
Jokertegnfilnavn Filnavnet med jokertegn under angitt samlings- og mappebane (eller jokertegnmappebane) for å filtrere kildefiler. <filnavnet med jokertegn> Ja wildcardFileName
For liste over filer
Bøtte Navnet på Google Cloud Storage-samlingen. <samlingsnavnet ditt> Ja bucketName
Katalogen Banen til mappen under den angitte samlingen. <mappenavnet> No mappebane
Bane til filliste Angir å kopiere et gitt filsett. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje. < fillistebane > No fileListPath
Filformat Filformatet for kildedataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format for detaljert informasjon. / Ja /
Rekursivt Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Vær oppmerksom på at når denne avmerkingsboksen er valgt, og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet. valgt (standard) eller fjern merking No Rekursiv
Filtrer etter sist endret Filene med siste endringstidspunkt i området [Starttidspunkt, Sluttidspunkt) filtreres for videre behandling. Tiden brukes på UTC-tidssone i formatet yyyy-mm-ddThh:mm:ss.fffZ. Disse egenskapene kan hoppes over, noe som betyr at ingen filattributtfilter vil bli brukt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Aktiver partisjonsoppdagelse Angir om du vil analysere partisjonene fra filbanen og legge dem til som flere kildekolonner. merket eller umerket (standard) No enablePartitionDiscovery:
sann eller usann (standard)
Partisjonsrotbane Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner. < partisjonsrotbanen > No partitionRootPath
Maksimal samtidig tilkobling Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrent Koble til ions
Flere kolonner Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. • Navn
•Verdi
No additionalColumns:
•navn
•Verdi

Målinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Datalagertype Datalagertypen. Ekstern Ja /
Koble til ion Tilkoblingen til måldatalageret. <Google Cloud Storage-tilkoblingen> Ja Tilkobling
Filbane Mappe-/filbanen til målfilen. < mappe-/filbane> Ja /
Bøtte Navnet på Google Cloud Storage-samlingen. <samlingsnavnet ditt> Ja bucketName
Katalogen Banen til mappen under den angitte samlingen. <mappenavnet> No mappebane
Filnavn Filnavnet under den angitte samlings- og mappebanen. <filnavnet ditt> No Filnavn
Kopier virkemåte Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. • Flate ut hierarki
• Slå sammen filer
• Bevare hierarki
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrent Koble til ions