Jaa


Määritä Azure Data Lake Tallennus Gen2 kopiointitoiminnossa

Tässä artikkelissa kerrotaan, miten voit käyttää kopiointitoimintoa tietoputkessa tietojen kopioimiseksi Azure Data Lake Tallennus Gen2:sta ja Azure Data Lakeen.

Tuettu muoto

Azure Data Lake Tallennus Gen2 tukee seuraavia tiedostomuotoja. Lue kukin artikkeli, jos haluat muotopohjaiset asetukset.

Tuettu määritys

Jos haluat määrittää kunkin välilehden kopiointitoiminnon kohdassa, siirry seuraaviin osioihin.

Yleiset

Yleiset asetukset -välilehden määrittäminen on yleisissä asetuksissa.

Lähde

Seuraavia ominaisuuksia tuetaan Azure Data Lake Tallennus Gen2:ssa kopiointitoiminnon Lähde-välilehdellä.

Screenshot showing source tab.

Seuraavat ominaisuudet vaaditaan:

  • Tietosäilön tyyppi: Valitse Ulkoinen.

  • Näyttöyhteys: Valitse yhteysluettelosta Azure Data Lake Tallennus Gen2 -yhteys. Jos yhteyttä ei ole, luo uusi Azure Data Lake Tallennus Gen2 -yhteys valitsemalla Uusi.

  • Näyttöyhteys tyyppi: Valitse Azure Data Lake Tallennus Gen2.

  • Tiedostopolun tyyppi: Voit valita tiedostopolun, yleismerkin tiedostopolun tai tiedostoluettelon tiedostopolkutyypiksi. Näiden asetusten määritys on seuraava:

    • Tiedostopolku: Jos valitset tämän tyypin, tiedot voidaan kopioida määritetystä tiedostojärjestelmästä tai aiemmin määritetystä kansio-/tiedostopolusta.

    • Yleismerkkitiedostopolku: Jos valitset tämän tyypin, määritä Tiedostojärjestelmä- ja Yleismerkki-polut.

      • Tiedostojärjestelmä: Azure Data Lake Tallennus Gen2 -tiedostojärjestelmän nimi.

      • Yleismerkit: Määritä kansio- tai tiedostopolku, jossa on yleismerkkejä määritetyn tiedostojärjestelmän alla lähdekansioiden tai tiedostojen suodattamiseksi.

        Sallittuja yleismerkkejä ovat: * (vastaa nollaa tai useampaa merkkiä) ja ? (vastaa nollaa tai yhtä merkkiä). Käytä ^ kohdetta tilan tilana, jos kansion nimessä on yleismerkki tai tämä escape-merkki. Saat lisää esimerkkejä kansio- ja tiedostosuodatinesimerkeistä.

        Screenshot showing wildcard file path.

        • Yleismerkkikansion polku: Määritä kansiopolku, jossa on yleismerkkejä määritetyn tiedostojärjestelmän alla lähdekansioiden suodattamiseksi.

        • Yleismerkkitiedoston nimi: Määritä tiedostonimi yleismerkeillä määritetyn tiedostojärjestelmän alla + kansiopolku (tai yleismerkkikansiopolku) lähdetiedostojen suodattamiseksi.

    • Tiedostoluettelo: Ilmaisee, että haluat kopioida tietyn tiedostojoukon. Määritä Kansiopolku ja Polku tiedostoon , jos haluat osoittaa tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohti, joka on polun suhteellinen polku. Lisää esimerkkejä on Tiedosto-luettelon esimerkeissä.

      Screenshot showing path to file list.

      • Kansiopolku: Määritä polku kansioon määritetyssä tiedostojärjestelmässä. Se on pakollinen.

      • Polku tiedostoluetteloon: Määritä sen tekstitiedoston polku, joka sisältää kopioitavien tiedostojen luettelon.

  • Rekursiivisesti: Määritä, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus on oletusarvoisesti valittuna, eikä sitä käytetä, kun määrität Polku tiedostoon -luettelon.

  • Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .

Lisäasetukset-kohdassa voit määrittää seuraavat kentät:

  • Suodata viimeisimmän muokkaajan mukaan: Tiedostot suodatetaan viimeisimmän muokatun päivämäärän perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.

    • Alkamisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on suurempi tai yhtä suuri kuin määritetty aika.

    • Päättymisaika (UTC): Tiedostot valitaan, jos niiden viimeisimmän muokkauksen aika on pienempi kuin määritetty aika.

    Kun aloitusajalla (UTC) on päivämäärä/aika-arvo, mutta päättymisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on suurempi tai yhtä suuri kuin datetime-arvo, valitaan. Kun päättymisajalla (UTC) on päivämäärä/aika-arvo, mutta alkamisaika (UTC) on NULL, se tarkoittaa, että tiedostot, joiden viimeisin määrite on pienempi kuin datetime-arvo, valitaan. Ominaisuudet voivat olla NULL-arvoja, mikä tarkoittaa, että tietoihin ei käytetä tiedostomääritesuodatinta.

  • Ota osion etsiminen käyttöön: Määritä, jäsennetäänkö osiot tiedostopolusta ja lisätäänkö ne ylimääräisinä lähdesarakkeina. Oletusarvoisesti se ei ole valittuna, eikä sitä tueta, kun käytät binaaritiedostomuotoa.

    • Osion pääpolku: Kun osion etsintä on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina.

      Jos sitä ei ole määritetty, oletusarvoisesti

      • Kun käytät lähteessä olevaa tiedostopolkua tai tiedostoluetteloa, osion pääpolku on määrittämäsi polku.
      • Kun käytät yleismerkkikansiosuodatinta, osion pääpolku on alipolku ennen ensimmäistä yleismerkkiä.

      Oletetaan esimerkiksi, että määrität polun seuraavasti root/folder/year=2020/month=08/day=27:

      • Jos määrität osion pääpolun arvoksi root/folder/year=2020, kopiointitoiminto luo tiedostojen sisältämien sarakkeiden lisäksi kaksi saraketta kuukauden ja päivän, joiden arvot ovat "08" ja "27".
      • Jos osion pääpolkua ei ole määritetty, lisäsaraketta ei luoda.

    Screenshot showing partition discovery.

  • Samanaikaisten yhteyksien enimmäismäärä: Tämä ominaisuus ilmaisee tietosäilöön vahvistettujen samanaikaisten yhteyksien ylärajan aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.

  • Lisäsarakkeet: Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä.

Kohde

Seuraavia ominaisuuksia tuetaan Azure Data Lake Tallennus Gen2:ssa kopiointiaktiviteetin Kohde-välilehdellä.

Screenshot showing destination tab.

Seuraavat ominaisuudet vaaditaan:

  • Tietosäilön tyyppi: Valitse Ulkoinen.
  • Näyttöyhteys: Valitse yhteysluettelosta Azure Data Lake Tallennus Gen2 -yhteys. Jos yhteyttä ei ole, luo uusi Azure Data Lake Tallennus Gen2 -yhteys valitsemalla Uusi.
  • Näyttöyhteys tyyppi: Valitse Azure Data Lake Tallennus Gen2.
  • Tiedostopolku: Valitse Selaa ja valitse tiedosto, jonka haluat kopioida tai täyttää polun manuaalisesti.
  • Tiedostomuoto: Valitse avattavasta luettelosta käytetty tiedostomuoto. Määritä tiedostomuoto valitsemalla Asetukset. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .

Lisäasetukset-kohdassa voit määrittää seuraavat kentät:

  • Kopiointitoiminta: Määrittää kopion toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. Voit valita toiminnan avattavasta luettelosta.

    Screenshot showing copy behavior.

    • Litistä hierarkia: Kaikki lähdekansion tiedostot ovat kohdekansion ensimmäisellä tasolla. Kohdetiedostoilla on automaattisesti luodut nimet.
    • Yhdistä tiedostot: Yhdistää kaikki lähdekansion tiedostot yhteen tiedostoon. Jos tiedostonimi on määritetty, yhdistetty tiedostonimi on määritetty nimi. Muussa tapauksessa se on automaattisesti muodostettu tiedostonimi.
    • Hierarkian säilyttäminen: Säilyttää tiedostohierarkian kohdekansiossa. Lähdetiedoston suhteellinen polku lähdekansioon on sama kuin kohdetiedoston suhteellinen polku kohdekansioon.
  • Samanaikaisten yhteyksien enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.

  • Lohkon koko (Mt): Määritä lohkon koko Mt, joita käytetään tietojen kirjoittamiseen Azure Data Lake Tallennus Gen2:een. Lisätietoja on artikkelissa Blob-objektien estäminen. Sallittu arvo on 4 Mt–100 Mt.

    Oletusarvoisesti lohkon koko määritetään automaattisesti lähdesäilön tyypin ja tietojen perusteella. Muille kuin binaarisille kopioille Azure Data Lake Tallennus Gen2:een lohkon oletuskoko on 100 Mt joten se mahtuu enintään noin 4,75 Tt tietoihin. Se ei ehkä ole paras mahdollinen, kun tiedot eivät ole suuria. Voit määrittää lohkon koon eksplisiittisesti, mutta varmista, että Lohkokoko (Mt)*50000 on tarpeeksi suuri tietojen tallentamiseen, muuten kopioinnin toiminnon suorittaminen epäonnistuu.

  • Metatiedot: Määritä mukautetut metatiedot, kun kopioit kohdesijainniin. Jokainen matriisin alla oleva metadata objekti edustaa ylimääräistä saraketta. name määrittää metatietoavaimen nimen ja value ilmaisee avaimen tietoarvon. Jos preserves-ominaisuutta käytetään, määritetyt metatiedot liittyvät tai korvaavat lähdetiedoston metatiedot.

    Sallitut tietoarvot ovat:

    • $$LASTMODIFIED: Varattu muuttuja ilmaisee, että lähdetiedostojen viimeisin muokkausaika tallennetaan. Käytä tiedostopohjaiseen lähteeseen, jossa on vain binaarimuoto.
    • Expression
    • Staattinen arvo

    Screenshot showing metadata.

Yhdistämismääritys

Siirry Yhdistämismääritys-välilehden määritystä varten Yhdistämismääritysten määrittäminen -välilehteen. Jos valitset tiedostomuodoksi Binary, yhdistämistä ei tueta.

Asetukset

Jos haluat Asetukset välilehden määritykset, siirry Asetukset-välilehden kohdassa Omien asetusten määrittäminen.

Taulukon yhteenveto

Seuraavat taulukot sisältävät lisätietoja Azure Data Lake Tallennus Gen2:n kopiointitoiminnosta.

Lähteen tiedot

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tietosäilön tyyppi Tietosäilön tyyppi. Ulkoinen Kyllä /
Näyttöyhteys ion Yhteys lähdetietosäilöön. <Azure Data Lake Tallennus Gen2 -yhteytesi> Kyllä Yhteys
Näyttöyhteys tyyppi Yhteystyyppisi. Valitse Azure Data Lake Tallennus Gen2. Azure Data Lake Tallennus Gen2 Kyllä /
Tiedostopolun tyyppi Käytettävä tiedostopolkutyyppi. • Tiedostopolku
• Yleismerkkikansion polku, yleismerkkitiedoston nimi
•Tiedostojen luettelo
Kyllä • folderPath, fileName, fileSystem
• yleismerkkiFolderPath, yleismerkkiFileName, fileSystem
• folderPath, fileName, fileListPath
Rekursiivisesti Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Huomaa, että kun rekursiivisesti valitaan ja kohde on tiedostopohjainen säilö, tyhjää kansiota tai alikansiota ei kopioida tai luoda kohdesijaintiin. Tämä ominaisuus ei koske, kun määrität Polku tiedostoluetteloon. valittuna (oletus) tai valinnan poistaminen En Rekursiivinen
Suodata viimeisimmän muokkatun mukaan Tiedostot, joiden viimeksi muokattu aika on alueella [Alkamisaika, Päättymisaika), suodatetaan jatkokäsittelyä varten. Aikaa käytetään UTC-aikavyöhykkeeseen muodossa yyyy-mm-ddThh:mm:ss.fffZ. Nämä ominaisuudet voidaan ohittaa, mikä tarkoittaa, että tiedostomääritesuodatinta ei käytetä. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo. datetime En modifiedDatetimeStart
modifiedDatetimeEnd
Osion etsimisen ottaminen käyttöön Ilmaisee, haluatko jäsentää osiot tiedostopolusta ja lisätä ne ylimääräisinä lähdesarakkeina. valittuna tai valitsemattomana (oletus) En enablePartitionDiscovery:
tosi tai epätosi (oletus)
Osion pääpolku Kun osion etsiminen on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina. < osion pääpolku > En partitionRootPath
Samanaikaisten yhteyksien enimmäismäärä Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. <samanaikaisten yhteyksien enimmäismäärä> En maxConcurrent Näyttöyhteys ions
Lisäsarakkeet Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä. • Nimi
•Arvo
En additionalColumns:
•Nimi
•Arvo

Kohdetiedot

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tietosäilön tyyppi Tietosäilön tyyppi. Ulkoinen Kyllä /
Näyttöyhteys ion Yhteytesi kohdetietosäilöön. <Azure Data Lake Tallennus Gen2 -yhteytesi> Kyllä Yhteys
Näyttöyhteys tyyppi Yhteystyyppisi. Valitse Azure Data Lake Tallennus Gen2. Azure Data Lake Tallennus Gen2 Kyllä /
Tiedostopolku Kohdetietojen tiedostopolku. < tiedostopolkusi > Kyllä folderPath, fileName, fileSystem
Kopiointitoiminta Määrittää kopioinnin toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. • Tasoittaa hierarkia
• Tiedostojen yhdistäminen
• Hierarkian säilyttäminen
En copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Samanaikaisten yhteyksien enimmäismäärä Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. <samanaikaisten yhteyksien enimmäismäärä> En maxConcurrent Näyttöyhteys ions
Lohkon koko (Mt) Määritä lohkon koko Mt kirjoitettaessa tietoja Azure Data Lake Tallennus Gen2:een. Sallittu arvo on 4 Mt–100 Mt. <lohkon koko> En blockSizeIn Mt
Metatiedot Määritä mukautetut metatiedot, kun kopioit kohteeseen. $$LASTMODIFIED
•Ilmaisun
• Staattinen arvo
En Metatiedot