Määritä Azure Data Lake Tallennus Gen2 kopiointitoiminnossa
Tässä artikkelissa kerrotaan, miten voit käyttää kopiointitoimintoa tietoputkessa tietojen kopioimiseksi Azure Data Lake Tallennus Gen2:sta ja Azure Data Lakeen.
Tuettu muoto
Azure Data Lake Tallennus Gen2 tukee seuraavia tiedostomuotoja. Lue kukin artikkeli, jos haluat muotopohjaiset asetukset.
- Avro-muoto
- Binaarimuoto
- Erotellun tekstin muoto
- Excel-muoto
- JSON-muoto
- ORC-muoto
- Parquet-muoto
- XML-muoto
Tuettu määritys
Jos haluat määrittää kunkin välilehden kopiointitoiminnon kohdassa, siirry seuraaviin osioihin.
Yleiset
Yleiset asetukset -välilehden määrittäminen on yleisissä asetuksissa.
Lähde
Seuraavia ominaisuuksia tuetaan Azure Data Lake Tallennus Gen2:ssa kopiointitoiminnon Lähde-välilehdellä.
Seuraavat ominaisuudet vaaditaan:
Tietosäilön tyyppi: Valitse Ulkoinen.
Näyttöyhteys: Valitse yhteysluettelosta Azure Data Lake Tallennus Gen2 -yhteys. Jos yhteyttä ei ole, luo uusi Azure Data Lake Tallennus Gen2 -yhteys valitsemalla Uusi.
Näyttöyhteys tyyppi: Valitse Azure Data Lake Tallennus Gen2.
Tiedostopolun tyyppi: Voit valita tiedostopolun, yleismerkin tiedostopolun tai tiedostoluettelon tiedostopolkutyypiksi. Näiden asetusten määritys on seuraava:
Tiedostopolku: Jos valitset tämän tyypin, tiedot voidaan kopioida määritetystä tiedostojärjestelmästä tai aiemmin määritetystä kansio-/tiedostopolusta.
Yleismerkkitiedostopolku: Jos valitset tämän tyypin, määritä Tiedostojärjestelmä- ja Yleismerkki-polut.
Tiedostojärjestelmä: Azure Data Lake Tallennus Gen2 -tiedostojärjestelmän nimi.
Yleismerkit: Määritä kansio- tai tiedostopolku, jossa on yleismerkkejä määritetyn tiedostojärjestelmän alla lähdekansioiden tai tiedostojen suodattamiseksi.
Sallittuja yleismerkkejä ovat:
*
(vastaa nollaa tai useampaa merkkiä) ja?
(vastaa nollaa tai yhtä merkkiä). Käytä^
kohdetta tilan tilana, jos kansion nimessä on yleismerkki tai tämä escape-merkki. Saat lisää esimerkkejä kansio- ja tiedostosuodatinesimerkeistä.Yleismerkkikansion polku: Määritä kansiopolku, jossa on yleismerkkejä määritetyn tiedostojärjestelmän alla lähdekansioiden suodattamiseksi.
Yleismerkkitiedoston nimi: Määritä tiedostonimi yleismerkeillä määritetyn tiedostojärjestelmän alla + kansiopolku (tai yleismerkkikansiopolku) lähdetiedostojen suodattamiseksi.
Tiedostoluettelo: Ilmaisee, että haluat kopioida tietyn tiedostojoukon. Määritä Kansiopolku ja Polku tiedostoon , jos haluat osoittaa tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohti, joka on polun suhteellinen polku. Lisää esimerkkejä on Tiedosto-luettelon esimerkeissä.
Kansiopolku: Määritä polku kansioon määritetyssä tiedostojärjestelmässä. Se on pakollinen.
Polku tiedostoluetteloon: Määritä sen tekstitiedoston polku, joka sisältää kopioitavien tiedostojen luettelon.
Rekursiivisesti: Määritä, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus on oletusarvoisesti valittuna, eikä sitä käytetä, kun määrität Polku tiedostoon -luettelon.
Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Suodata viimeisimmän muokkaajan mukaan: Tiedostot suodatetaan viimeisimmän muokatun päivämäärän perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
Alkamisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on suurempi tai yhtä suuri kuin määritetty aika.
Päättymisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on pienempi kuin määritetty aika.
Kun aloitusajalla (UTC) on päivämäärä/aika-arvo, mutta päättymisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on suurempi tai yhtä suuri kuin datetime-arvo, valitaan. Kun päättymisajalla (UTC) on päivämäärä/aika-arvo, mutta alkamisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on pienempi kuin datetime-arvo, valitaan. Ominaisuudet voivat olla NULL-arvoja, mikä tarkoittaa, että tietoihin ei käytetä tiedostomääritesuodatinta.
Ota osion etsiminen käyttöön: Määritä, jäsennetäänkö osiot tiedostopolusta ja lisätäänkö ne ylimääräisinä lähdesarakkeina. Oletusarvoisesti se ei ole valittuna, eikä sitä tueta, kun käytät binaaritiedostomuotoa.
Osion pääpolku: Kun osion etsintä on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina.
Jos sitä ei ole määritetty, oletusarvoisesti
- Kun käytät lähteessä olevaa tiedostopolkua tai tiedostoluetteloa, osion pääpolku on määrittämäsi polku.
- Kun käytät yleismerkkikansiosuodatinta, osion pääpolku on alipolku ennen ensimmäistä yleismerkkiä.
Oletetaan esimerkiksi, että määrität polun seuraavasti
root/folder/year=2020/month=08/day=27
:- Jos määrität osion pääpolun arvoksi
root/folder/year=2020
, kopiointitoiminto luo tiedostojen sisältämien sarakkeiden lisäksi kaksi saraketta kuukauden ja päivän, joiden arvot ovat "08" ja "27". - Jos osion pääpolkua ei ole määritetty, lisäsaraketta ei luoda.
Samanaikaisten yhteyksien enimmäismäärä: Tämä ominaisuus ilmaisee tietosäilöön vahvistettujen samanaikaisten yhteyksien ylärajan aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Lisäsarakkeet: Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä.
Kohde
Seuraavia ominaisuuksia tuetaan Azure Data Lake Tallennus Gen2:ssa kopiointiaktiviteetin Kohde-välilehdellä.
Seuraavat ominaisuudet vaaditaan:
- Tietosäilön tyyppi: Valitse Ulkoinen.
- Näyttöyhteys: Valitse yhteysluettelosta Azure Data Lake Tallennus Gen2 -yhteys. Jos yhteyttä ei ole, luo uusi Azure Data Lake Tallennus Gen2 -yhteys valitsemalla Uusi.
- Näyttöyhteys tyyppi: Valitse Azure Data Lake Tallennus Gen2.
- Tiedostopolku: Valitse Selaa ja valitse tiedosto, jonka haluat kopioida tai täyttää polun manuaalisesti.
- Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Kopiointitoiminta: Määrittää kopion toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. Voit valita toiminnan avattavasta luettelosta.
- Litistä hierarkia: Kaikki lähdekansion tiedostot ovat kohdekansion ensimmäisellä tasolla. Kohdetiedostoilla on automaattisesti luodut nimet.
- Yhdistä tiedostot: Yhdistää kaikki lähdekansion tiedostot yhteen tiedostoon. Jos tiedostonimi on määritetty, yhdistetty tiedostonimi on määritetty nimi. Muussa tapauksessa se on automaattisesti muodostettu tiedostonimi.
- Hierarkian säilyttäminen: Säilyttää tiedostohierarkian kohdekansiossa. Lähdetiedoston suhteellinen polku lähdekansioon on sama kuin kohdetiedoston suhteellinen polku kohdekansioon.
Samanaikaisten yhteyksien enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Lohkon koko (Mt): Määritä lohkon koko Mt, joita käytetään tietojen kirjoittamiseen Azure Data Lake Tallennus Gen2:een. Lisätietoja on artikkelissa Blob-objektien estäminen. Sallittu arvo on 4 Mt–100 Mt.
Oletusarvoisesti lohkon koko määritetään automaattisesti lähdesäilön tyypin ja tietojen perusteella. Muille kuin binaarisille kopioille Azure Data Lake Tallennus Gen2:een lohkon oletuskoko on 100 Mt joten se mahtuu enintään noin 4,75 Tt tietoihin. Se ei ehkä ole paras mahdollinen, kun tiedot eivät ole suuria. Voit määrittää lohkon koon eksplisiittisesti, mutta varmista, että Lohkokoko (Mt)*50000 on tarpeeksi suuri tietojen tallentamiseen, muuten kopioinnin toiminnon suorittaminen epäonnistuu.
Metatiedot: Määritä mukautetut metatiedot, kun kopioit kohdesijainniin. Jokainen matriisin alla oleva
metadata
objekti edustaa ylimääräistä saraketta.name
määrittää metatietoavaimen nimen javalue
ilmaisee avaimen tietoarvon. Jos preserves-ominaisuutta käytetään, määritetyt metatiedot liittyvät tai korvaavat lähdetiedoston metatiedot.Sallitut tietoarvot ovat:
$$LASTMODIFIED
: Varattu muuttuja ilmaisee, että lähdetiedostojen viimeisin muokkausaika tallennetaan. Käytä tiedostopohjaiseen lähteeseen, jossa on vain binaarimuoto.- Expression
- Staattinen arvo
Yhdistämismääritys
Siirry Yhdistämismääritys-välilehden määritystä varten Yhdistämismääritysten määrittäminen -välilehteen. Jos valitset tiedostomuodoksi Binary, yhdistämistä ei tueta.
Asetukset
Jos haluat Asetukset välilehden määritykset, siirry Asetukset-välilehden kohdassa Omien asetusten määrittäminen.
Taulukon yhteenveto
Seuraavat taulukot sisältävät lisätietoja Azure Data Lake Tallennus Gen2:n kopiointitoiminnosta.
Lähteen tiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteys lähdetietosäilöön. | <Azure Data Lake Tallennus Gen2 -yhteytesi> | Kyllä | Yhteys |
Näyttöyhteys tyyppi | Yhteystyyppisi. Valitse Azure Data Lake Tallennus Gen2. | Azure Data Lake Tallennus Gen2 | Kyllä | / |
Tiedostopolun tyyppi | Käytettävä tiedostopolkutyyppi. | • Tiedostopolku • Yleismerkkikansion polku, yleismerkkitiedoston nimi •Tiedostojen luettelo |
Kyllä | • folderPath, fileName, fileSystem • yleismerkkiFolderPath, yleismerkkiFileName, fileSystem • folderPath, fileName, fileListPath |
Rekursiivisesti | Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus ei koske, kun määrität Polku tiedostoluetteloon. | valittuna (oletus) tai valinnan poistaminen | En | Rekursiivinen |
Suodata viimeisimmän muokkatun mukaan | Tiedostot, joiden viimeksi muokattu aika on alueella [Alkamisaika, Päättymisaika), suodatetaan jatkokäsittelyä varten. Aikaa käytetään UTC-aikavyöhykkeeseen muodossa yyyy-mm-ddThh:mm:ss.fffZ . Nämä ominaisuudet voidaan ohittaa, mikä tarkoittaa, että tiedostomääritesuodatinta ei käytetä. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo. |
datetime | En | modifiedDatetimeStart modifiedDatetimeEnd |
Osion etsimisen ottaminen käyttöön | Ilmaisee, haluatko jäsentää osiot tiedostopolusta ja lisätä ne ylimääräisinä lähdesarakkeina. | valittuna tai valitsemattomana (oletus) | En | enablePartitionDiscovery: tosi tai epätosi (oletus) |
Osion pääpolku | Kun osion etsiminen on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina. | < osion pääpolku > | En | partitionRootPath |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |
Lisäsarakkeet | Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä. | • Nimi •Arvo |
En | additionalColumns: •Nimi •Arvo |
Kohdetiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Tietosäilön tyyppi | Tietosäilön tyyppi. | Ulkoinen | Kyllä | / |
Näyttöyhteys ion | Yhteytesi kohdetietosäilöön. | <Azure Data Lake Tallennus Gen2 -yhteytesi> | Kyllä | Yhteys |
Näyttöyhteys tyyppi | Yhteystyyppisi. Valitse Azure Data Lake Tallennus Gen2. | Azure Data Lake Tallennus Gen2 | Kyllä | / |
Tiedostopolku | Kohdetietojen tiedostopolku. | < tiedostopolkusi > | Kyllä | folderPath, fileName, fileSystem |
Kopiointitoiminta | Määrittää kopioinnin toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. | • Tasoittaa hierarkia • Tiedostojen yhdistäminen • Hierarkian säilyttäminen |
En | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrent Näyttöyhteys ions |
Lohkon koko (Mt) | Määritä lohkon koko Mt kirjoitettaessa tietoja Azure Data Lake Tallennus Gen2:een. Sallittu arvo on 4 Mt–100 Mt. | <lohkon koko> | En | blockSizeIn Mt |
Metatiedot | Määritä mukautetut metatiedot, kun kopioit kohteeseen. | • $$LASTMODIFIED •Ilmaisun • Staattinen arvo |
En | Metatiedot |