Lakehousen määrittäminen kopiointitoiminnossa
Tässä artikkelissa kerrotaan, miten voit kopioida tietoja Fabric Lakehousesta ja Fabric Lakehousesta tietoputken kopiointitoiminnon avulla. Tiedot kirjoitetaan oletusarvoisesti Lakehouse Table -taulukkoon V-Order-järjestyksessä, ja voit siirtyä Delta Lake -taulukkooptimointiin ja V-Orderiin saadaksesi lisätietoja.
Tuettu muoto
Lakehouse tukee seuraavia tiedostomuotoja. Lue kukin artikkeli, jos haluat muotopohjaiset asetukset.
- Avro-muoto
- Binaarimuoto
- Erotellun tekstin muoto
- Excel-muoto
- JSON-muoto
- ORC-muoto
- Parquet-muoto
- XML-muoto
Tuettu määritys
Jos haluat määrittää kunkin välilehden kopiointitoiminnon kohdassa, siirry seuraaviin osioihin.
Yleiset
Jos kyseessä on Yleiset-välilehden määritys, siirry kohtaan Yleiset.
Lähde
Seuraavat ominaisuudet ovat tuettuja Lakehouselle kopiointiaktiviteetin Lähde-välilehdellä .
Seuraavat ominaisuudet vaaditaan:
Yhteys: Valitse yhteysluettelosta Lakehouse-yhteys. Jos yhteyttä ei ole olemassa, luo uusi Lakehouse-yhteys valitsemalla Yhteysluettelon alareunasta Lisää . Jos käytät Käytä dynaamista sisältöä lakehouse-asetuksen määrittämiseen, lisää parametri ja määritä parametriarvoksi Lakehouse-objektitunnus. Voit hakea Lakehouse-objektitunnuksesi avaamalla Lakehouse-työtilasi, jonka jälkeen
/lakehouses/
tunnus on URL-osoitteessasi.Pääkansio: Valitse taulukot tai tiedostot, joka ilmaisee järven hallitun tai hallitsemattoman alueen virtuaalisen näkymän. Lisätietoja on lakehousen esittelyssä.
Jos valitset Taulukot:
Taulukon nimi: Valitse taulukkoluettelosta olemassa oleva taulukko tai määritä lähteeksi taulukon nimi. Voit myös luoda uuden taulukon valitsemalla Uusi .
Taulukko: Kun käytät Lakehouse-skeemoja yhteydessä, valitse taulukkoluettelosta aiemmin luotu taulukko, jossa on rakenne tai määritä lähteeksi taulukko, jonka rakenteena on rakenne. Voit myös luoda uuden, rakenteen sisältävän taulukon valitsemalla Uusi . Jos et määritä rakenteen nimeä, palvelu käyttää oletusrakenteena dboa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
- Aikaleima: Määritä kysely vanhemmalle tilannevedokseen aikaleiman mukaan.
- Versio: Määritä, jos haluat tehdä kyselyn vanhemmalle tilannevedokseen version mukaan.
- Lisäsarakkeet: Lisää tietosarakkeita lähdetiedostojen suhteelliseen polkuun tai staattiseen arvoon. Lauseketta tuetaan jälkimmäisessä.
Lukijan versio 1 on tuettu. Löydät vastaavat tuetut Delta Lake -ominaisuudet tästä artikkelista.
Jos valitset Tiedostot:
Tiedostopolun tyyppi: Voit valita tiedostopolun, yleismerkin tiedostopolun tai tiedostoluettelon tiedostopolkutyypiksi. Seuraavassa luettelossa kuvataan jokaisen asetuksen määritykset:
Tiedostopolku: Valitse selaamalla tiedosto, jonka haluat kopioida, tai täytä polku manuaalisesti.
Yleismerkkitiedostopolku: Suodata lähdekansiot tai tiedostot määrittämällä kansio- tai tiedostopolku, jossa on yleismerkkejä kyseisen Lakehousen hallitsemattoman alueen alla (Tiedostot-kohdassa). Sallittuja yleismerkkejä ovat:
*
(vastaa nollaa tai useampaa merkkiä) ja?
(vastaa nollaa tai yhtä merkkiä). Käytä^
kohdetta tilan tilana, jos kansiossa tai tiedostonimessä on yleismerkki tai tämä escape-merkki.Yleismerkkikansion polku: Polku kansioon annetun säilön alla. Jos haluat suodattaa kansion yleismerkillä, ohita tämä asetus ja määritä ne tiedot aktiviteetin lähdeasetuksissa.
Yleismerkkitiedoston nimi: Tämä on tiedoston nimi annetulla Lakehousen hallitsemattomalla alueella (Tiedostot-kohdassa) ja kansiopolussa.
Tiedostoluettelo: Ilmaisee, kopioidaanko tietty tiedostojoukko.
- Kansiopolku: Osoittaa kansioon, joka sisältää kopioittavat tiedostot.
- Polku tiedostoluetteloon: Osoittaa tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohti, joka on määritettyjen tiedostopolkujen suhteellinen polku.
Rekursiivisesti: Ilmaisee, luetaanko tiedot rekursiivisesti alikansioista vai vain määritetystä kansiosta. Jos ominaisuus on käytössä, kaikki syötekansion tiedostot ja sen alikansiot käsitellään rekursiivisesti. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
Tiedostomuoto: Valitse tiedostomuoto avattavasta luettelosta. Määritä tiedostomuoto valitsemalla Asetukset-painike. Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
-
Suodata viimeisimmän muokkaajan mukaan: Tiedostot suodatetaan viimeisimmän muokatun päivämäärän perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
- Alkamisaika: Tiedostot valitaan, jos niiden viimeisin muokkausaika on suurempi tai yhtä suuri kuin määritetty aika.
- Päättymisaika: Tiedostot valitaan, jos niiden viimeisin muokkausaika on pienempi kuin määritetty aika.
-
Ota osion etsiminen käyttöön: Määritä osioitujen tiedostojen osiot tiedostopolusta ja lisää ne ylimääräisinä lähdesarakkeina.
- Osion pääpolku: Kun osion etsintä on käytössä, määritä absoluuttinen pääpolku, jotta voit lukea osioidut kansiot tietosarakkeina.
- Samanaikaisten yhteyksien enimmäismäärä: Ilmaisee tietosäilöön vahvistettujen samanaikaisten yhteyksien ylärajan aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
-
Suodata viimeisimmän muokkaajan mukaan: Tiedostot suodatetaan viimeisimmän muokatun päivämäärän perusteella. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo.
Kohde
Seuraavat ominaisuudet ovat tuettuja Lakehouselle kopiointiaktiviteetin Kohde-välilehdessä .
Seuraavat ominaisuudet vaaditaan:
Yhteys: Valitse yhteysluettelosta Lakehouse-yhteys. Jos yhteyttä ei ole olemassa, luo uusi Lakehouse-yhteys valitsemalla Yhteysluettelon alareunasta Lisää . Jos käytät Käytä dynaamista sisältöä lakehouse-asetuksen määrittämiseen, lisää parametri ja määritä parametriarvoksi Lakehouse-objektitunnus. Voit hakea Lakehouse-objektitunnuksesi avaamalla Lakehouse-työtilasi, jonka jälkeen
/lakehouses/
tunnus on URL-osoitteessasi.Pääkansio: Valitse taulukot tai tiedostot, joka ilmaisee järven hallitun tai hallitsemattoman alueen virtuaalisen näkymän. Lisätietoja on lakehousen esittelyssä.
Jos valitset Taulukot:
Taulukon nimi: Valitse taulukkoluettelosta olemassa oleva taulukko tai määritä taulukon nimi kohdesijainniksi. Voit myös luoda uuden taulukon valitsemalla Uusi .
Taulukko: Kun käytät Lakehouse-skeemoja yhteydessä, valitse taulukkoluettelosta aiemmin luotu taulukko, jossa on rakenne tai määritä kohdetaulukoksi taulukko, jossa on rakenne. Voit myös luoda uuden, rakenteen sisältävän taulukon valitsemalla Uusi . Jos et määritä rakenteen nimeä, palvelu käyttää oletusrakenteena dboa .
Muistiinpano
Taulukon nimen on oltava vähintään yksi merkki pitkä, ilman /- tai \-merkkiä, ei lopussa olevaa pistettä eikä alussa tai lopussa olevia välilyöntejä.
- Lisäasetukset-voit määrittää seuraavat kentät:
Taulukon toiminnot: Määritä toiminto valittuun taulukkoon.
Liitä: lisää uusia arvoja olemassa olevaan taulukkoon.
-
Ota osio käyttöön: Tämän valinnan avulla voit luoda osioita kansiorakenteessa, joka perustuu yhteen tai useaan sarakkeeseen. Jokainen erillinen sarakearvo (pari) on uusi osio. Esimerkiksi "year=2000/month=01/file".
- Osion sarakkeen nimi: Valitse kohdesarakkeista rakenteet-yhdistämismäärityksessä, kun liität tietoja uuteen taulukkoon. Kun liität tietoja olemassa olevaan taulukkoon, jossa on jo osioita, osion sarakkeet johdetaan automaattisesti olemassa olevasta taulukosta. Tuettuja tietotyyppejä ovat merkkijono, kokonaisluku, totuusarvo ja päivämäärä ja aika. Muoto noudattaa tyypin muuntoasetuksia Yhdistämismääritys-välilehdellä .
-
Ota osio käyttöön: Tämän valinnan avulla voit luoda osioita kansiorakenteessa, joka perustuu yhteen tai useaan sarakkeeseen. Jokainen erillinen sarakearvo (pari) on uusi osio. Esimerkiksi "year=2000/month=01/file".
Korvaa: Korvaa taulukon olemassa olevat tiedot ja rakenne uusilla arvoilla. Jos tämä toiminto on valittuna, voit ottaa osion käyttöön kohdetaulukossa:
-
Ota osio käyttöön: Tämän valinnan avulla voit luoda osioita kansiorakenteessa, joka perustuu yhteen tai useaan sarakkeeseen. Jokainen erillinen sarakearvo (pari) on uusi osio. Esimerkiksi "year=2000/month=01/file".
- Osion sarakkeen nimi: Valitse kohdesarakkeista rakenteet-yhdistämismäärityksessä. Tuettuja tietotyyppejä ovat merkkijono, kokonaisluku, totuusarvo ja päivämäärä ja aika. Muoto noudattaa tyypin muuntoasetuksia Yhdistämismääritys-välilehdellä .
Se tukee Delta Lake -aikamatkaa. Korvaava taulukko sisältää delta-lokit edellisille versioille, joita voit käyttää Lakehousessa. Voit myös kopioida edellisen versiotaulukon Lakehousesta määrittämällä Version kopiointiaktiviteetin lähteeseen.
-
Ota osio käyttöön: Tämän valinnan avulla voit luoda osioita kansiorakenteessa, joka perustuu yhteen tai useaan sarakkeeseen. Jokainen erillinen sarakearvo (pari) on uusi osio. Esimerkiksi "year=2000/month=01/file".
Samanaikaisten yhteyksien enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Kirjoittajan versiota 2 tuetaan. Löydät vastaavat tuetut Delta Lake -ominaisuudet tästä artikkelista.
Jos valitset Tiedostot:
Tiedostopolku: Valitse selaamalla tiedosto, jonka haluat kopioida, tai täytä polku manuaalisesti.
Tiedostomuoto: Valitse tiedostomuoto avattavasta luettelosta. Määritä tiedostomuoto valitsemalla Asetukset . Jos haluat lisätietoja eri tiedostomuodoista, lue artikkelit, jotka ovat tuetussa muodossa .
Lisäasetukset-kohdassa voit määrittää seuraavat kentät:
Kopiointitoiminta: Määrittää kopion toiminnan, kun lähde on tiedostopohjaisen tietosäilön tiedostot. Voit valita kopiointitoiminnoksi Litteä hierarkia, Yhdistä tiedostot, Säilytä hierarkia tai Lisää dynaaminen sisältö . Jokaisen asetuksen määritys on seuraava:
Litistä hierarkia: Kaikki lähdekansion tiedostot ovat kohdekansion ensimmäisellä tasolla. Kohdetiedostoilla on automaattisesti luodut nimet.
Yhdistä tiedostot: Yhdistää kaikki lähdekansion tiedostot yhteen tiedostoon. Jos tiedostonimi on määritetty, yhdistetty tiedostonimi on määritetty nimi. Muussa tapauksessa se on automaattisesti muodostettu tiedostonimi.
Hierarkian säilyttäminen: Säilyttää tiedostohierarkian kohdekansiossa. Lähdetiedoston suhteellinen polku lähdekansioon on sama kuin kohdetiedoston suhteellinen polku kohdekansioon.
Lisää dynaamista sisältöä: Jos haluat määrittää lausekkeen ominaisuuden arvolle, valitse Lisää dynaaminen sisältö. Tämä kenttä avaa lausekkeen muodostimen, jossa voit luoda lausekkeita tuetuista järjestelmämuuttujista, toiminnan tulosteista, funktioista ja käyttäjän määrittämistä muuttujista tai parametreista. Lisätietoja lausekkeen kielestä on kohdassa Lausekkeet ja funktiot.
Samanaikaisten yhteyksien enimmäismäärä: Tietosäilöön vahvistettujen samanaikaisten yhteyksien yläraja aktiviteetin suorittamisen aikana. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä.
Lohkon koko (Mt): Määritä lohkon koko Mt: kun kirjoitat tietoja Lakehouseen. Sallittu arvo on 4–100 Mt.
Metatiedot: Määritä mukautetut metatiedot kopioitaessa kohdetietosäilöön. Jokainen matriisin alla oleva
metadata
objekti edustaa ylimääräistä saraketta.name
määrittää metatietoavaimen nimen javalue
ilmaisee avaimen tietoarvon. Jos säilytät määritteet -ominaisuutta , määritetyt metatiedot liittyvät tai korvaavat lähdetiedoston metatiedot. Sallitut tietoarvot ovat:
Yhdistämismääritys
Jos Et käytä Yhdistämismääritys-välilehden määrityksissä Lakehouse-taulukkoa kohdetietosäilönä, siirry kohtaan Yhdistämismääritys.
Jos käytät Lakehouse-taulukkoa kohdetietosäilönä, lukuun ottamatta yhdistämismäärityksen määritystä, voit muokata kohdesarakkeiden tyyppiä. Kun olet valinnut Tuo rakenteet, voit määrittää saraketyypin kohdesijainnissa.
Esimerkiksi lähteen PersonID-sarakkeen tyyppi on int, ja voit muuttaa sen merkkijonotyypiksi, kun yhdistät kohdesarakkeeseen.
Muistiinpano
Kohdetyypin muokkaamista ei tällä hetkellä tueta, kun lähteen desimaalityyppi on.
Jos valitset tiedostomuodoksi Binary, yhdistämistä ei tueta.
Asetukset
Valitse Asetukset-välilehden määritykset kohdasta Asetukset.
Taulukon yhteenveto
Seuraavat taulukot sisältävät lisätietoja Lakehousen kopiointitoiminnosta.
Lähteen tiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Yhteys | Osio, jossa yhteys valitaan. | < Lakehouse-yhteytesi> | Kyllä | workspaceId artifactId |
Pääkansioon | Pääkansion tyyppi. | • Taulukot • Tiedostot |
En | rootFolder: Taulukko tai tiedostot |
Taulukon nimi | Sen taulukon nimi, jonka haluat lukea tietoja. | <taulukon nimi> | Kyllä, kun valitset Taulukot juurikansiossa | table |
Table | Sen taulukon nimi, jossa on rakenne, jonka tiedot haluat lukea, kun otat Lakehouse-järjestelmän käyttöön yhteytenä rakenteet. | <rakennetta sisältävä taulukko> | Kyllä, kun valitset Taulukot juurikansiossa | / |
Taulukolle | ||||
Rakenteen nimi | Rakenteen nimi. |
<rakenteen nimi> (oletus on dbo) |
En |
(alle source ->datasetSettings ->typeProperties )rakenne |
taulukon nimi | Taulukon nimi. | <taulukon nimi> | Kyllä | table |
Aikaleima | Aikaleima vanhemman tilannevedoksen kyselylle. | <aikaleima> | En | timestampAsOf |
Versio | Versio vanhemman tilannevedoksen kyselyn kyselyä varten. | <versio> | En | versionAsOf |
Lisäsarakkeet | Lisää tietosarakkeita lähdetiedostojen suhteellisen polun tai staattisen arvon tallentamiseksi. Lauseketta tuetaan jälkimmäisessä. | • Nimi •Arvo |
En | additionalColumns: •Nimi •arvo |
Tiedostopolun tyyppi | Käytettävän tiedostopolun tyyppi. | • Tiedostopolku • Yleismerkkitiedostopolku • Tiedostoluettelo |
Kyllä, kun valitset Tiedostot juurikansiosta | / |
Tiedostopolku | Kopioi polusta kansioon/tiedostoon lähdetietosäilön alla. | <tiedostopolku> | Kyllä, kun tiedostopolku valitaan | • folderPath •tiedostonimi |
Yleismerkit-polut | Kansiopolku, jossa on yleismerkkejä lähdetietosäilön alla ja joka on määritetty suodattamaan lähdekansiot. | <Yleismerkit-polut> | Kyllä, kun valitaan Yleismerkki-tiedostopolku | • yleismerkkiFolderPath • yleismerkkiTiedostonimi |
Kansiopolku | Osoittaa kansioon, joka sisältää kopioitavat tiedostot. | <kansiopolku> | En | folderPath |
Tiedostoluettelon polku | Ilmaisee, kopioidaanko tietty tiedostojoukko. Osoita tekstitiedostoon, joka sisältää kopioitavien tiedostojen luettelon, yhden tiedoston riviä kohden, joka on määritetyn polun suhteellinen polku. | <polku tiedostoluetteloon> | En | fileListPath |
Rekursiivisesti | Käsittele kaikki syötekansiossa ja sen alikansioissa olevat tiedostot rekursiivisesti tai vain valitun kansion tiedostot. Tämä asetus on poistettu käytöstä, kun yksittäinen tiedosto on valittuna. | valitse tai poista valinta | En | rekursiivinen: tosi tai epätosi |
Tiedostomuoto | Lähdetietojen tiedostomuoto. Jos haluat lisätietoja eri tiedostomuodoista, katso tarkempia tietoja artikkelista Tuettu muoto . | / | Kyllä, kun valitset Tiedostot juurikansiosta | / |
Suodata viimeisimmän muokkatun mukaan | Tiedostot, joiden viimeksi muokattu aika on alueella [Alkamisaika, Päättymisaika), suodatetaan jatkokäsittelyä varten. Aikaa käytetään UTC-aikavyöhykkeeseen muodossa yyyy-mm-ddThh:mm:ss.fffZ .Tämä ominaisuus voidaan ohittaa, mikä tarkoittaa, että tiedostomääritesuodatinta ei käytetä. Tämä ominaisuus ei päde, kun määrität tiedostopolun tyypiksi Tiedostoluettelo. |
• Alkamisaika • Päättymisaika |
En | modifiedDatetimeStart modifiedDatetimeEnd |
Osion etsimisen ottaminen käyttöön | Osioiden jäsentäminen tiedostopolusta ja niiden lisääminen ylimääräisinä lähdesarakkeina. | Valittu tai valitsematon | En | enablePartitionDiscovery: tosi tai epätosi (oletus) |
Osion pääpolku | Osion absoluuttinen pääpolku osioitujen kansioiden lukemiseen tietosarakkeina. | <osion pääpolku> | En | partitionRootPath |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Arvoa tarvitaan vain, kun haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrentConnections |
Kohdetiedot
Name | Kuvaus | Arvo | Pakollinen | JSON-komentosarjaominaisuus |
---|---|---|---|---|
Yhteys | Osio, jossa yhteys valitaan. | < Lakehouse-yhteytesi> | Kyllä | workspaceId artifactId |
Pääkansioon | Pääkansion tyyppi. | • Taulukot • Tiedostot |
Kyllä | rootFolder: Taulukko tai tiedostot |
Taulukon nimi | Sen taulukon nimi, johon haluat kirjoittaa tiedot. | <taulukon nimi> | Kyllä, kun valitset Taulukot juurikansiossa | table |
Table | Sen taulukon nimi, jossa on rakenne, johon haluat kirjoittaa tiedot, kun käytät Lakehouse-tallennusmallia yhteytenä. | <rakennetta sisältävä taulukko> | Kyllä, kun valitset Taulukot juurikansiossa | / |
Taulukolle | ||||
Rakenteen nimi | Rakenteen nimi. |
<rakenteen nimi> (oletus on dbo) |
En |
(alle sink ->datasetSettings ->typeProperties )rakenne |
taulukon nimi | Taulukon nimi. | <taulukon nimi> | Kyllä | table |
Taulukko-toiminto | Liitä uusia arvoja olemassa olevaan taulukkoon tai korvaa taulukon olemassa olevat tiedot ja rakenne uusilla arvoilla. | • Liitä • Korvaa |
En | tableActionOption: Liitä tai Korvaa KorvaaRakenne |
Osioiden ottaminen käyttöön | Tämän valinnan avulla voit luoda osioita kansiorakenteessa yhden tai usean sarakkeen perusteella. Jokainen erillinen sarakearvo (pari) on uusi osio. Esimerkiksi "year=2000/month=01/file". | Valittu tai valitsematon | En | partitionOption: PartitionByKey tai None |
Osioi sarakkeet | Kohdesarakkeet rakenteet-yhdistämismäärityksessä. | <osion sarakkeet> | En | partitionNameList |
Tiedostopolku | Kirjoita tiedot kohdetietosäilön alla olevaan kansion tai tiedoston polkuun. | <tiedostopolku> | En | • folderPath •tiedostonimi |
Tiedostomuoto | Kohdetietojen tiedostomuoto. Jos haluat lisätietoja eri tiedostomuodoista, katso tarkempia tietoja artikkelista Tuettu muoto . | / | Kyllä, kun valitset Tiedostot juurikansiosta | / |
Kopiointitoiminta | Kopiointitoiminto, joka määritetään, kun lähde on tiedostopohjaisen tietosäilön tiedostot. | • Tasoittaa hierarkia • Tiedostojen yhdistäminen • Hierarkian säilyttäminen • Lisää dynaamista sisältöä |
En | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Samanaikaisten yhteyksien enimmäismäärä | Tietosäilöön aktiviteetin suorittamisen aikana määritettyjen samanaikaisten yhteyksien yläraja. Määritä arvo vain, jos haluat rajoittaa samanaikaisia yhteyksiä. | <samanaikaisten yhteyksien enimmäismäärä> | En | maxConcurrentConnections |
Lohkon koko (Mt) | Lohkon koko Mt: ssä käytettiin kirjoittamaan tietoja Lakehouseen. Sallittu arvo on 4–100 Mt. | <lohkon koko> | En | blockSizeInMB |
Metatiedot | Mukautetut metatiedot määritetään kopioitaessa kohdesijainniin. | • $$LASTMODIFIED •Lauseke • Staattinen arvo |
En | metatieto |