Amazon S3:n määrittäminen kopiointitoiminnossa
Tässä artikkelissa kerrotaan, miten voit käyttää tietoputken kopiointitoimintoa tietojen kopioimiseen Amazon S3:sta ja Amazon S3:een.
Tarvittavat oikeudet
Jos haluat kopioida tietoja Amazon S3: sta, varmista, että sinulle on myönnetty seuraavat käyttöoikeudet Amazon S3 -objektitoimintoihin: s3:GetObject
ja s3:GetObjectVersion
.
Lisäksi tarvitaan käyttöoikeudet toimintoihin, s3:ListAllMyBuckets
s3:ListBucket
/s3:GetBucketLocation
kuten yhteyden testaamiseen ja pääkansiosta selaamiseen.
Jos haluat nähdä täydellisen luettelon Amazon S3 -käyttöoikeuksista, siirry kohtaan Käyttöoikeuksien määrittäminen AWS-sivuston käytännössä.
Tuettu muoto
Amazon S3 tukee seuraavia tiedostomuotoja. Lue kukin artikkeli, jos haluat muotopohjaiset asetukset.
- Avro-muoto
- Binaarimuoto
- Erotellun tekstin muoto
- Excel-muoto
- JSON-muoto
- ORC-muoto
- Parquet-muoto
- XML-muoto
Tuettu määritys
Jos haluat määrittää kunkin välilehden kopiointitoiminnon kohdassa, siirry seuraaviin osioihin.
Yleiset
Yleiset asetukset -välilehden määrittäminen on yleisissä asetuksissa.
Lähde
Seuraavat ominaisuudet ovat tuettuja Amazon S3 :ssa kopiointiaktiviteetin Lähde-välilehdellä .
Seuraavat ominaisuudet vaaditaan:
Tietosäilön tyyppi: Valitse Ulkoinen.
Näyttöyhteys: Valitse yhteysluettelosta Amazon S3 -yhteys. Jos yhteyttä ei ole, luo uusi Amazon-yhteys valitsemalla Uusi.
Näyttöyhteys tyyppi: Valitse yhteystyypiksi Amazon S3.
Tiedostopolun tyyppi: Voit valita tiedostopolun tyypiksi Tiedostopolku, Etuliite, Yleismerkkitiedostopolku tai Tiedostoluettelo . Jokaisen asetuksen määritys on seuraava:
Tiedostopolku: Jos valitset tämän tyypin, tiedot voidaan kopioida annetusta säilöstä tai määritetystä säilö- ja kansiopolusta.
Etuliite: Jos valitset tämän tyypin, määritä säilö ja etuliite.
S3-säilön nimi. Se on pakollinen.
Etuliite: Määritä S3-avaimen nimen etuliite kussakin säilössä lähde-S3-tiedostojen suodattamiseksi. S3-avaimet, joiden nimi alkaa merkkijonolla
bucket/this_prefix
, valitaan. Se käyttää S3:n palvelupuolen suodatinta, joka tarjoaa paremman suorituskyvyn kuin yleismerkkisuodatin.Kun käytät etuliitettä ja päätät kopioida tiedostopohjaiseen kohteeseen säilyttäen hierarkian, huomaa, että alapolku viimeisen etuliitteen "/" jälkeen säilytetään. Sinulla on esimerkiksi lähde
bucket/folder/subfolder/file.txt
, ja määrität etuliitteeksifolder/sub
, niin säilytetty tiedostopolku onsubfolder/file.txt
.
Yleismerkkitiedostopolku: Jos valitset tämän tyypin, määritä Säilö- ja Yleismerkki-polut.
S3-säilön nimi. Se on pakollinen.
Yleismerkit: Määritä kansio- tai tiedostopolku, jossa on yleismerkkejä annetun säilön alla, jotta voit suodattaa lähdekansiot tai tiedostot.
Sallittuja yleismerkkejä ovat:
*
(vastaa nollaa tai useampaa merkkiä) ja?
(vastaa nollaa tai yhtä merkkiä). Käytä^
kohdetta tilan tilana, jos kansion nimessä on yleismerkki tai tämä escape-merkki. Katso lisää esimerkkejä kansio- ja tiedostosuodatinesimerkeistä. Yleismerkkikansion polku: Kansiopolku, jossa on yleismerkkejä annetun säilön alla lähdekansioiden suodattamiseksi.Yleismerkkitiedoston nimi: Tämä on tiedostonimi, jossa on yleismerkkejä annetun säilön ja kansion polun (tai yleismerkin kansiopolun) alla lähdetiedostojen suodattamiseen.
Tiedostoluettelo: Jos valitset tämän tyypin, määritä Kansiopolku ja Polku tiedostoon -luettelo , joka ilmaisee, että kopioit tietyn tiedostojoukon. Osoita tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohden, joka on määritetyn polun suhteellinen polku. Lisää esimerkkejä on Tiedosto-luettelon esimerkeissä.
- Kansiopolku: Määritä polku kansioon annetussa säilössä. Se on pakollinen.
- Polku tiedostoluetteloon: Määritä sen tekstitiedoston polku, joka sisältää kopioitavien tiedostojen luettelon.
Rekursiivisesti: Määritä, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus on oletusarvoisesti valittuna, eikä sitä käytetä, kun määrität Polku tiedostoon -luettelon.
Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Suodata viimeisimmän muokkaukset mukaan: Tiedostot suodatetaan viimeksi määrittämiesi päivämäärien perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
- Alkamisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on suurempi tai yhtä suuri kuin määritetty aika.
- Päättymisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on pienempi kuin määritetty aika.
Kun aloitusajalla (UTC) on päivämäärä/aika-arvo, mutta päättymisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on suurempi tai yhtä suuri kuin datetime-arvo, valitaan. Kun päättymisajalla (UTC) on päivämäärä/aika-arvo, mutta alkamisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on pienempi kuin datetime-arvo, valitaan. Ominaisuudet voivat olla NULL-arvoja, mikä tarkoittaa, että tietoihin ei käytetä tiedostomääritesuodatinta.
Ota osion etsiminen käyttöön: Määritä, jäsennetäänkö osiot tiedostopolusta ja lisätäänkö ne ylimääräisinä lähdesarakkeina. Oletusarvoisesti se ei ole valittuna, eikä sitä tueta, kun käytät binaaritiedostomuotoa.
Osion pääpolku: Kun osion etsintä on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina.
Jos sitä ei ole määritetty, oletusarvoisesti
- Kun käytät lähteessä olevaa tiedostopolkua tai tiedostoluetteloa, osion pääpolku on määrittämäsi polku.
- Kun käytät yleismerkkikansiosuodatinta, osion pääpolku on alipolku ennen ensimmäistä yleismerkkiä.
- Kun käytät etuliitettä, osion pääpolku on alipolku ennen viimeistä "/"- kohtaa.
Oletetaan esimerkiksi, että määrität polun seuraavasti
root/folder/year=2020/month=08/day=27
:- Jos määrität osion pääpolun arvoksi
root/folder/year=2020
, kopiointitoiminto luo tiedostojen sisältämien sarakkeiden lisäksi kaksi saraketta kuukauden ja päivän, joiden arvot ovat "08" ja "27". - Jos osion pääpolkua ei ole määritetty, lisäsaraketta ei luoda.
Samanaikaisen yhteyden enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Lisäsarakkeet: Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä.
Kohde
Seuraavia ominaisuuksia tuetaan Amazon S3 :ssa kopiointiaktiviteetin Kohde-välilehdessä .
Seuraavat ominaisuudet vaaditaan:
- Tietosäilön tyyppi: Valitse Ulkoinen.
- Näyttöyhteys: Valitse yhteysluettelosta Amazon S3 -yhteys. Jos yhteyttä ei ole, luo uusi Amazon-yhteys valitsemalla Uusi.
- Näyttöyhteys tyyppi: Valitse yhteystyypiksi Amazon S3.
- Tiedostopolku: Tiedot voidaan kopioida annettuun säilöön tai määritettyyn säilön ja kansion polkuun.
- Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Kopiointitoiminta: Määrittää kopion toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. Voit valita toiminnan avattavasta luettelosta.
- Litistä hierarkia: Kaikki lähdekansion tiedostot ovat kohdekansion ensimmäisellä tasolla. Kohdetiedostoilla on automaattisesti luodut nimet.
- Yhdistä tiedostot: Yhdistää kaikki lähdekansion tiedostot yhteen tiedostoon. Jos tiedostonimi on määritetty, yhdistetty tiedostonimi on määritetty nimi. Muussa tapauksessa se on automaattisesti muodostettu tiedostonimi.
- Hierarkian säilyttäminen: Säilyttää tiedostohierarkian kohdekansiossa. Lähdetiedoston suhteellinen polku lähdekansioon on sama kuin kohdetiedoston suhteellinen polku kohdekansioon.
Samanaikaisten yhteyksien enimmäismäärä: Tämä ominaisuus ilmaisee tietosäilöön vahvistettujen samanaikaisten yhteyksien ylärajan aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Yhdistämismääritys
Siirry Yhdistämismääritys-välilehden määritystä varten Yhdistämismääritysten määrittäminen -välilehteen. Jos valitset tiedostomuodoksi Binary, yhdistämistä ei tueta.
Asetukset
Jos haluat Asetukset välilehden määritykset, siirry Asetukset-välilehden kohdassa Omien asetusten määrittäminen.
Taulukon yhteenveto
Seuraavat taulukot sisältävät lisätietoja Amazon S3:n kopiointitoiminnosta.
Lähteen tiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteys lähdetietosäilöön. | <Amazon S3 -yhteytesi> | Kyllä | Yhteys |
Näyttöyhteys tyyppi | Valitse yhteytesi tyyppi. | Amazon S3 | Kyllä | / |
Tiedostopolun tyyppi | Lähdetietojen noutamiseen käytettävä tiedostopolkutyyppi. | • Tiedostopolku • Etuliite • Yleismerkkitiedostopolku • Tiedostoluettelo |
Kyllä | / |
Tiedostopolkua varten | ||||
Ämpäri | S3-säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostonimi | Tämä on määritetyn säilön ja kansiopolun alla oleva tiedostonimi. | <tiedostosi nimi> | En | Tiedostonimi |
Etuliitteelle | ||||
Ämpäri | S3-säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Etuliite | Etuliite S3-avaimen nimelle annetun säilön alla lähde-S3-tiedostojen suodattamiseksi. | <etuliitteesi> | En | Etuliite |
Yleismerkkitiedoston polku | ||||
Ämpäri | S3-säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Yleismerkkikansion polku | Kansiopolku, jossa on yleismerkkejä määritetyn säilön alla lähdekansioiden suodattamiseksi. | <kansiopolku, jossa on yleismerkkejä> | En | yleismerkkiFolderPath |
Yleismerkki Tiedostonimi | Tiedostonimi, jossa on yleismerkkejä määritetyn säilön ja kansion polun (tai yleismerkin kansiopolun) alla lähdetiedostojen suodattamiseksi. | <tiedostosi nimi yleismerkkeihin> | Kyllä | yleismerkkiTiedostonimi |
Tiedostoluettelo | ||||
Ämpäri | S3-säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostoluettelon polku | Ilmaisee, kopioidaanko tietty tiedostojoukko. Osoita tekstitiedostoa, joka sisältää kopioitavien tiedostojen luettelon sekä yhden tiedoston per rivi. | < tiedostoluettelon polku > | En | fileListPath |
Tiedostomuoto | Lähdetietojen tiedostomuoto. Jos haluat lisätietoja eri tiedostomuodoista, katso tarkempia tietoja artikkelista Tuettu muoto . | / | Kyllä | / |
Rekursiivisesti | Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus ei koske, kun määrität Polku tiedostoluetteloon. | valittuna (oletus) tai valinnan poistaminen | En | Rekursiivinen |
Suodata viimeisimmän muokkatun mukaan | Tiedostot, joiden viimeksi muokattu aika on alueella [Alkamisaika, Päättymisaika), suodatetaan jatkokäsittelyä varten. Aikaa käytetään UTC-aikavyöhykkeeseen muodossa yyyy-mm-ddThh:mm:ss.fffZ . Nämä ominaisuudet voidaan ohittaa, mikä tarkoittaa, että tiedostomääritesuodatinta ei käytetä. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo. |
datetime | En | modifiedDatetimeStart modifiedDatetimeEnd |
Osion etsimisen ottaminen käyttöön | Ilmaisee, haluatko jäsentää osiot tiedostopolusta ja lisätä ne ylimääräisinä lähdesarakkeina. | valittuna tai valitsemattomana (oletus) | En | enablePartitionDiscovery: tosi tai epätosi (oletus) |
Osion pääpolku | Kun osion etsiminen on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina. | < osion pääpolku > | En | partitionRootPath |
Samanaikaisen yhteyden enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |
Lisäsarakkeet | Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä. | • Nimi •Arvo |
En | additionalColumns: •Nimi •Arvo |
Kohdetiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteytesi kohdetietosäilöön. | <Amazon S3 -yhteytesi> | Kyllä | Yhteys |
Näyttöyhteys tyyppi | Valitse yhteytesi tyyppi. | Amazon S3 | Kyllä | / |
Tiedostopolku | Kohdetiedoston kansio-/tiedostopolku. | <kansion tai tiedoston polku> | Kyllä | / |
Ämpäri | S3-säilön nimi. | <säilöön nimi> | Kyllä | bucketName |
Hakemisto | Polku määritetyn säilön alla olevaa kansioon. | <kansion nimi> | En | kansiopolku |
Tiedostonimi | Tämä on määritetyn säilön ja kansiopolun alla oleva tiedostonimi. | <tiedostosi nimi> | En | Tiedostonimi |
Kopiointitoiminta | Määrittää kopioinnin toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. | • Tasoittaa hierarkia • Tiedostojen yhdistäminen • Hierarkian säilyttäminen |
En | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |