Google Cloud Tallennus määrittäminen kopiointitoiminnossa
Tässä artikkelissa kerrotaan, miten voit kopioida tietoja Google Cloud -Tallennus kopiointitoiminnon avulla tietoputkessa.
Edellytykset
Google Cloud Tallennus tilillesi vaaditaan seuraavat asetukset:
Mahdollista yhteentoimivuus Google Cloud Tallennus tilillesi.
Määritä oletusprojekti, joka sisältää Google Cloud Tallennus kohderyhmästä kopioitavat tiedot.
Luo palvelutili ja määritä oikeat käyttöoikeustasot käyttämällä pilvipalvelun IAM:ia GCP:ssä.
Luo tämän palvelutilin käyttöoikeusavaimet.
Tarvittavat oikeudet
Jos haluat kopioida tietoja Google Cloud Tallennus:stä, varmista, että sinulle on myönnetty seuraavat käyttöoikeudet objektitoiminnoille: storage.objects.get
ja storage.objects.list
.
Lisäksi käyttöoikeus vaaditaan toimintoihin, storage.buckets.list
kuten yhteyden testaamiseen ja pääkansiosta selaamiseen.
Täydellinen luettelo Google Cloud Tallennus rooleista ja niihin liittyvistä käyttöoikeuksista löytyy Google Cloud -sivuston IAM-rooleista Tallennus.
Tuettu muoto
Google Cloud Tallennus tukee seuraavia tiedostomuotoja. Lue kukin artikkeli, jos haluat muotopohjaiset asetukset.
- Avro-muoto
- Binaarimuoto
- Erotellun tekstin muoto
- Excel-muoto
- JSON-muoto
- ORC-muoto
- Parquet-muoto
- XML-muoto
Tuettu määritys
Jos haluat määrittää kunkin välilehden kopiointitoiminnon kohdassa, siirry seuraaviin osioihin.
Yleiset
Jos kyseessä on Yleiset-välilehden määritys, siirry kohtaan Yleiset.
Lähde
Seuraavia ominaisuuksia tuetaan Google Cloud Tallennus kopiointitoiminnon Lähde-välilehdellä.
Seuraavat ominaisuudet vaaditaan:
Tietosäilön tyyppi: Valitse Ulkoinen.
Näyttöyhteys ion: Valitse yhteysluettelosta Google Cloud Tallennus yhteys. Jos yhteyttä ei ole, luo uusi Google Cloud -Tallennus yhteys valitsemalla Uusi.
Tiedostopolun tyyppi: Voit valita tiedostopolun tyypiksi Tiedostopolku, Etuliite, Yleismerkkitiedostopolku tai Tiedostoluettelo . Näiden asetusten määritys on seuraava:
Tiedostopolku: Jos valitset tämän tyypin, tiedot voidaan kopioida annetusta säilöstä tai kansio-/tiedostopolusta, joka on määritetty Tiedosto-polussa.
Etuliite: Jos valitset tämän tyypin, määritä säilö ja etuliite.
Säilö: Määritä Google Cloud Tallennus -säilön nimi. Se on pakollinen.
Etuliite: Google Cloud Tallennus avaimen nimen määritetyssä säilössä Google Cloud -Tallennus tiedostojen lähdetietojen suodattamiseksi. Google Cloud Tallennus avaimet, joiden nimet alkavat
given_bucket/this_prefix
avaimilla, valitaan. Se käyttää Google Cloud Tallennus palvelupuolen suodatinta, joka tarjoaa paremman suorituskyvyn kuin yleismerkkisuodatin.
Yleismerkkitiedostopolku: Jos valitset tämän tyypin, määritä Säilö- ja Yleismerkki-polut.
Säilö: Määritä Google Cloud Tallennus -säilön nimi. Se on pakollinen.
Yleismerkit: Määritä kansio- tai tiedostopolku, jossa on yleismerkkejä annetun säilön alla, jotta voit suodattaa lähdekansiot tai tiedostot.
Sallittuja yleismerkkejä ovat:
*
(vastaa nollaa tai useampaa merkkiä) ja?
(vastaa nollaa tai yhtä merkkiä). Käytä^
kohdetta tilan tilana, jos kansion nimessä on yleismerkki tai tämä escape-merkki. Saat lisää esimerkkejä kansio- ja tiedostosuodatinesimerkeistä.Yleismerkkikansion polku: Määritä kansiopolku, jossa on yleismerkkejä annetun säilön alla lähdekansioiden suodattamiseksi.
Yleismerkkitiedoston nimi: Määritä tiedoston nimi yleismerkeillä annetun säilön ja kansion polun (tai yleismerkkikansion polun) alle lähdetiedostojen suodattamiseksi.
Tiedostoluettelo: Jos valitset tämän tyypin, määritä Kansiopolku ja Polku tiedostoon -luettelo , joka ilmaisee, että kopioit tietyn tiedostojoukon. Osoita tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohden, joka on määritetyn polun suhteellinen polku. Lisää esimerkkejä on Tiedosto-luettelon esimerkeissä.
- Kansiopolku: Määritä polku kansioon annetussa säilössä. Se on pakollinen.
- Polku tiedostoluetteloon: Määritä sen tekstitiedoston polku, joka sisältää kopioitavien tiedostojen luettelon.
Rekursiivisesti: Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun tämä valintaruutu on valittuna ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin.
Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Suodata viimeisimmän muokkaukset mukaan: Tiedostot suodatetaan viimeksi määrittämiesi päivämäärien perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
- Alkamisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on suurempi tai yhtä suuri kuin määritetty aika.
- Päättymisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on pienempi kuin määritetty aika.
Kun aloitusajalla (UTC) on päivämäärä/aika-arvo, mutta päättymisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on suurempi tai yhtä suuri kuin datetime-arvo, valitaan. Kun päättymisajalla (UTC) on päivämäärä/aika-arvo, mutta alkamisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on pienempi kuin datetime-arvo, valitaan. Ominaisuudet voivat olla NULL-arvoja, mikä tarkoittaa, että tietoihin ei käytetä tiedostomääritesuodatinta.
Ota osion etsiminen käyttöön: Määritä, jäsennetäänkö osiot tiedostopolusta ja lisätäänkö ne ylimääräisinä lähdesarakkeina. Oletusarvoisesti se ei ole valittuna, eikä sitä tueta, kun käytät binaaritiedostomuotoa.
Osion pääpolku: Kun osion etsintä on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina.
Jos sitä ei ole määritetty, oletusarvoisesti
- Kun käytät lähteessä olevaa tiedostopolkua tai tiedostoluetteloa, osion pääpolku on määrittämäsi polku.
- Kun käytät yleismerkkikansiosuodatinta, osion pääpolku on alipolku ennen ensimmäistä yleismerkkiä.
- Kun käytät etuliitettä, osion pääpolku on alipolku ennen viimeistä "/"- kohtaa.
Oletetaan esimerkiksi, että määrität polun seuraavasti
root/folder/year=2020/month=08/day=27
:- Jos määrität osion pääpolun arvoksi
root/folder/year=2020
, kopiointitoiminto luo tiedostojen sisältämien sarakkeiden lisäksi kaksi saraketta kuukauden ja päivän, joiden arvot ovat "08" ja "27". - Jos osion pääpolkua ei ole määritetty, lisäsaraketta ei luoda.
Samanaikaisen yhteyden enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Lisäsarakkeet: Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä.
Kohde
Seuraavia ominaisuuksia tuetaan Google Cloud Tallennus kopiointitoiminnon Kohde-välilehdellä.
Seuraavat ominaisuudet vaaditaan:
- Tietosäilön tyyppi: Valitse Ulkoinen.
- Näyttöyhteys: Valitse yhteysluettelosta Google Cloud Tallennus yhteys. Jos yhteyttä ei ole, luo uusi Google Cloud -Tallennus yhteys valitsemalla Uusi.
- Tiedostopolku: Tiedot voidaan kopioida annettuun säilöön tai määritettyyn säilön ja kansion polkuun.
- Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Kopiointitoiminta: Määrittää kopion toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. Voit valita toiminnan avattavasta luettelosta.
- Litistä hierarkia: Kaikki lähdekansion tiedostot ovat kohdekansion ensimmäisellä tasolla. Kohdetiedostoilla on automaattisesti luodut nimet.
- Yhdistä tiedostot: Yhdistää kaikki lähdekansion tiedostot yhteen tiedostoon. Jos tiedostonimi on määritetty, yhdistetty tiedostonimi on määritetty nimi. Muussa tapauksessa se on automaattisesti muodostettu tiedostonimi.
- Hierarkian säilyttäminen: Säilyttää tiedostohierarkian kohdekansiossa. Lähdetiedoston suhteellinen polku lähdekansioon on sama kuin kohdetiedoston suhteellinen polku kohdekansioon.
Samanaikaisten yhteyksien enimmäismäärä: Tämä ominaisuus ilmaisee tietosäilöön vahvistettujen samanaikaisten yhteyksien ylärajan aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Yhdistämismääritys
Katso Yhdistämismääritykset-välilehden määritys kohdassa Yhdistämismääritysten määrittäminen -välilehti. Jos valitset tiedostomuodoksi Binary, yhdistämistä ei tueta.
Asetukset
Jos haluat Asetukset välilehden määritykset, siirry Asetukset-välilehden kohdassa Omien asetusten määrittäminen.
Taulukon yhteenveto
Seuraavat taulukot sisältävät lisätietoja Google Cloud Tallennus copy activity -toiminnosta.
Lähteen tiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteys lähdetietosäilöön. | <Google Cloud Tallennus yhteytesi> | Kyllä | Yhteys |
Tiedostopolun tyyppi | Lähdetietojen noutamiseen käytettävä tiedostopolkutyyppi. | • Tiedostopolku • Etuliite • Yleismerkkitiedostopolku • Tiedostoluettelo |
Kyllä | / |
Tiedostopolkua varten | ||||
Ämpäri | Google Cloud Tallennus säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostonimi | Tämä on määritetyn säilön ja kansiopolun alla oleva tiedostonimi. | <tiedostosi nimi> | En | Tiedostonimi |
Etuliitteelle | ||||
Ämpäri | Google Cloud Tallennus säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Etuliite | Google Cloud -Tallennus avainnimen etuliite annetun säilön alla Google Cloud -Tallennus tiedostojen lähdetietojen suodattamiseksi. | <etuliitteesi> | En | Etuliite |
Yleismerkkitiedoston polku | ||||
Ämpäri | Google Cloud Tallennus säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Yleismerkkikansion polku | Kansiopolku, jossa on yleismerkkejä määritetyn säilön alla lähdekansioiden suodattamiseksi. | <kansiopolku, jossa on yleismerkkejä> | En | yleismerkkiFolderPath |
Yleismerkki Tiedostonimi | Tiedostonimi, jossa on yleismerkkejä määritetyn säilön ja kansion polun (tai yleismerkin kansiopolun) alla lähdetiedostojen suodattamiseksi. | <tiedostosi nimi yleismerkkeihin> | Kyllä | yleismerkkiTiedostonimi |
Tiedostoluettelo | ||||
Ämpäri | Google Cloud Tallennus säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostoluettelon polku | Ilmaisee, kopioidaanko tietty tiedostojoukko. Osoita tekstitiedostoa, joka sisältää kopioitavien tiedostojen luettelon sekä yhden tiedoston per rivi. | < tiedostoluettelon polku > | En | fileListPath |
Tiedostomuoto | Lähdetietojen tiedostomuoto. Jos haluat lisätietoja eri tiedostomuodoista, katso tarkempia tietoja artikkelista Tuettu muoto . | / | Kyllä | / |
Rekursiivisesti | Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun tämä valintaruutu on valittuna ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. | valittuna (oletus) tai valinnan poistaminen | En | Rekursiivinen |
Suodata viimeisimmän muokkatun mukaan | Tiedostot, joiden viimeksi muokattu aika on alueella [Alkamisaika, Päättymisaika), suodatetaan jatkokäsittelyä varten. Aikaa käytetään UTC-aikavyöhykkeeseen muodossa yyyy-mm-ddThh:mm:ss.fffZ . Nämä ominaisuudet voidaan ohittaa, mikä tarkoittaa, että tiedostomääritesuodatinta ei käytetä. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo. |
datetime | En | modifiedDatetimeStart modifiedDatetimeEnd |
Osion etsimisen ottaminen käyttöön | Ilmaisee, haluatko jäsentää osiot tiedostopolusta ja lisätä ne ylimääräisinä lähdesarakkeina. | valittuna tai valitsemattomana (oletus) | En | enablePartitionDiscovery: tosi tai epätosi (oletus) |
Osion pääpolku | Kun osion etsiminen on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina. | < osion pääpolku > | En | partitionRootPath |
Samanaikaisen yhteyden enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |
Lisäsarakkeet | Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä. | • Nimi •Arvo |
En | additionalColumns: •Nimi •Arvo |
Kohdetiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteytesi kohdetietosäilöön. | <Google Cloud Tallennus yhteytesi> | Kyllä | Yhteys |
Tiedostopolku | Kohdetiedoston kansio-/tiedostopolku. | < kansion tai tiedoston polku> | Kyllä | / |
Ämpäri | Google Cloud Tallennus säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostonimi | Tämä on määritetyn säilön ja kansiopolun alla oleva tiedostonimi. | <tiedostosi nimi> | En | Tiedostonimi |
Kopiointitoiminta | Määrittää kopioinnin toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. | • Tasoittaa hierarkia • Tiedostojen yhdistäminen • Hierarkian säilyttäminen |
En | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |