Vie Dataverse -tiedot Delta Lake -muodossa
Käytä Azure Synapse Link for Dataverseeä Microsoft Dataverse -tietojen vientiin Azure Synapse Analyticsiin Delta Lake -muodossa. Tutustu sitten tietoihin ja saa merkityksellisiä tietoja nopeammin. Tässä artikkelissa on seuraavat tiedot ja ohjeet seuraavien tehtävien suorittamiseen:
- Selittää Delta Laken ja Parquetin ja miksi tiedot on vietävä tässä muodossa.
- Vie tiedot Dataverse-tiedot Azure Synapse Analytics workspaceen Delta Lake -muodossa Azure Synapse Linkin avulla.
- Seuraa Azure Synapse Linkiä ja tietojen muuntamista.
- Tarkastele tietoja lähteestä Azure Data Lake Storage Gen2.
- Tarkastele tietoja lähteestä Synapse Workspace.
Tärkeä
- Jos olet siirtymässä CSV:stä Delta Lakeen ja sinulla on mukautettuja näkymiä, suosittelemme päivittämään komentosarjan siten, että kaikki ositetut taulukot muutetaan osittamattomiksi. Tämä tehdään etsimällä
_partitioned
-esiintymiä ja korvaamalla ne tyhjällä merkkijonolla. - Dataverse-määritystä varten vain liittäminen on oletusarvoisesti käytössä, jotta CSV-tiedot voidaan viedä
appendonly
-tilassa. Delta Lake -taulukolla on kuitenkin paikallinen päivitysrakenne, koska Delta Lake -muunnoksella on jaksoittainen yhdistämisprosessi. - Spark-varantojen luomisesta ei aiheudu kustannuksia. Kustannuksia syntyy vasta, kun Spark-työ suoritetaan kohteena olevassa Spark-varannossa ja Spark-esiintymä luodaan tarvittaessa. Nämä kustannukset liittyvät Azure Synapse workspace Sparkiin ja ne laskutetaan kuukausittain. Spark-laskennan käyttökustannus määräytyy lähinnä lisäävän päivityksen aikavälin ja tietomäärien mukaan. Lisätietoja: Azure Synapse Analytics:n hinnoittelu
- On tärkeää, että nämä lisäkustannukset otetaan huomioon tämän ominaisuuden käytöstä päätettäessä, sillä ominaisuuden käytön jatkaminen edellyttää, että ne maksetaan.
- Ilmoitus Apache Spark 3.1:n Azure Synapse -suorituspalvelun käyttöiän päättymisestä (EOLA) on annettu tammikuun 26. päivä vuonna 2023. Synapse-suorituspalvelun Apache Sparkin elinkaarikäytännön mukaisesti Apache Spark 3.1:n Azure Synapse -suorituspalvelu vanhenee ja poistetaan käytöstä tammikuun 26. päivä vuonna 2024. Käyttöiän päättymispäivämäärän jälkeen vanhentuneet suorituspalvelut eivät ole saatavissa uusissa Spark-pooleissa, eikä olemassa olevien työnkulkuja voi suorittaa. Metatiedot säilytetään väliaikaisesti Synapse-työtilassa. Lisätietoja: Apache Spark 3.1:n Azure Synapse -suorituspalvelu (EOLA). Jos haluat päivittää Synapse Link for Dataverse n ja viennin Data Lake -muodoksi Spark 3.3, tee paikallinen päivitys olemassa oleviin profiileihin. Lisätietoja: Paikallinen Apache Spark 3.3 ja Delta Lake 2.2
- Tammikuun 4. päivä 2024 alkaen vain Spark Poolin versiota 3.3 tuetaan linkin ensimmäisen luomisen aikana.
Huomautus
Azure Synapse Link -tila Power Appsissa (make.powerapps.com) vastaa Delta Laken muunnostilaa:
Count
näyttää Delta Lake -taulukossa olevien tietueiden määrän.Last synchronized on
-päivämäärä/aika vastaa viimeisimmän onnistuneen muunnoksen aikaleimaa.Sync status
näkyy aktiivisena, kun tietojen synkronointi ja Delta Lake -muunnos ovat valmiit. Tällöin tiedot ovat valmiita kulutettaviksi.
Mikä on Delta Lake?
Delta Lake on avoimen lähdekoodin projekti, jonka avulla voi rakentaa lakehouse-arkkitehtuuria data lake -teknologian päälle. Delta Lake tarjoaa ACID (yksittäisyys, johdonmukaisuus, eristys ja kestävyys) -tapahtumia ja skaalattavan metatietojen käsittelyn sekä yhdistää suoratoiston ja erätietojen käsittelyn olemassa oleviin data lake -toimintoihin. Azure Synapse Analytics on yhteensopiva Linux Foundation Delta Laken kanssa. Delta Laken nykyinen versio, joka sisältyy Azure Synapseen, sisältää kielituet seuraaville: Scala, PySpark, and .NET. Lisätietoja: Mikä on Delta Lake? Voit oppia myös Johdanto Delta-taulukoihin -videosta.
Apache Parquet on Delta Laken perusmuoto ja mahdollistaa tehokkaiden pakkaus- ja koodaustoimintojen hyödyntämisen, jotka ovat muodolle alkuperäisiä. Parquet-tiedostomuoto käyttää sarakesuuntaista pakkausta. Se on tehokas ja säästää tallennustilaa. Kyselyjen, jotka hakevat tiettyjä sarakearvoja, ei tarvitse lukea koko rivitietoja, mikä parantaa suorituskykyä. Siksi palvelinton SQL-klusteri tarvitsee vähemmän aikaa ja vähemmän tallennustilapyyntöjä tietojen lukemista varten.
Miksi käyttää Delta Lakea?
- Skaalautuvuus: Delta Lake on rakennettu avoimen lähdekoodin Apache-käyttöoikeuksien päälle, jotka on suunniteltu täyttämään toimialan standardit suuren mittakaavan tietojenkäsittelyn kuormille.
- Luotettavuus: Delta Lake tarjoaa ACID-tapahtumat varmistaen tietojen yhdenmukaisuuden ja luotettavuuden jopa silloin, kun tapahtuu virheitä tai yhtäaikaista käyttöä.
- Suorituskyky: Delta Lake hyödyntää Parquetin saraketallennusmuotoa tarjoten parempia pakkaus- ja koodaustekniikoita, jotka voivat johtaa parantuneeseen kyselyjen suorituskykyyn CSV-kyselytiedostoihin verrattuna.
- Kustannustehokas: Delta Lake -tiedostomuoto on korkeasti pakattu tietovarastointiteknologia, joka tarjoaa merkittäviä mahdollisuuksia tallennustilan säästämiseen yrityksille. Tämä muoto on suunniteltu optimoimaan tietojen käsittelyn ja mahdollisesti vähentämään käsiteltyjen tietojen kokonaismäärää tai tarvittavaa suoritusaikaa vaadittaessa tapahtuvalle laskennalle.
- Tietosuojan vaatimustenmukaisuus: Delta Lake tarjoaa yhdessä Azure Synapse Linkin kanssa työkalluja ja ominaisuuksia, kuten pehmeän ja kovan poistamisen, joiden avulla voidaan noudattaa erilaisia tietosuojasäädöksiä, kuten yleistä tietosuoja-asetusta (GDPR).
Miten Delta Lake toimii Azure Synapse Link for Dataversen kanssa?
Kun määrität Azure Synapse Link for Dataverseä, voit ottaa vie Data Lakeen -ominaisuuden käyttöön ja muodostaa yhteyden Synapse workspaceen ja Spark-varantoon. Azure Synapse Link vie valitut Dataverse-taulukot CSV-muodossa määritetyin aikavälein ja käsittelee ne Delta Lake -muunnoksen Spark-työllä. Kun muuntoprosessi on valmis, CSV-tiedot poistetaan tallennustilan säästämiseksi. Lisäksi sarja ylläpitotöitä aikataulutetaan suoritettaviksi päivittäin. Lisäksi järjestelmä suorittaa automaattisesti tiivistys- ja alityöprosesseja datatiedostojen yhdistämiseksi ja puhdistamiseksi tallennustilan optimoimiseksi ja kyselyn suorituskyvyn parantamiseksi.
Edellytykset
- Dataverse: Sinulla on oltava Dataverse järjestelmänvalvojan käyttöoikeusrooli. Lisäksi taulukoissa, jotka haluat viedä Azure Synapse Linkin kautta, on oltava käytössä Jäljitä muutokset -ominaisuus. Lisätietoja: Lisäasetukset
- Azure Data Lake Storage Gen2: Tarvitaan Azure Data Lake Storage Gen2 -tili sekä Omistaja- ja Säilön BLOB-tietojen osallistuja -roolit. Tallennustilin on otettava käyttöön hierarkkinen nimitila ja julkinen verkkoyhteys sekä alkuasennuksessa että muutossynkronoinnissa. Salli tallennustilin avaimeen pääsy on pakollinen vain alkuasennuksen yhteydessä.
- Synapse-työtila: Sinulla on oltava Synapse-työtila, Omistaja-rooli käyttöoikeuksien hallinnassa (IAM) ja Synapse-järjestelmänvalvojan käyttöoikeusrooli Synapse Studiossa. Synapse-työtilan on oltava samalla alueella kuin Azure Data Lake Storage Gen2 -tilisi. Tallennustili on lisättävä linkitettynä palveluna Synapse Studioon. Jos haluat luoda Synapse-työtilan, siirry kohtaan Synapse-työtilan luominen.
- Yhdistetyn Apache Spark Azure Synapse työtilan allas, jonka Apache Spark versio on 3.3 ja joka käyttää tätä suositeltua Spark Pool -määritystä. Lisätietoja Spark-varannon luomisesta on kohdassa Uuden Apache Spark -varannon luominen.
- Microsoft Dynamics 365:n minimiversiovaatimus tämän toiminnon käyttöä varten on 9.2.22082. Lisätietoja: Ennakkojulkaisujen tilaaminen
Suositeltu Spark-varannon määritys
Tätä määritystä voidaan pitää käynnistysvaiheena keskimääräistä käyttöä varten.
- Solmun koko: pieni (4 vCorea / 32 Gt)
- Automaattinen skaalaus: Käytössä
- Solmujen määrä: 5–10
- Automaattinen pysäyttäminen: Käytössä
- Käyttämättömien minuuttien määrä: 5
- Apache Spark: 3.3
- Suorittajien dynaaminen määrittäminen: Käytössä
- Suorittajien oletusmäärä: 1–9
Tärkeä
Käytä Spark-poolia vain Delta Lake -keskustelutoimintoon Synapse Linkin kanssa Dataverse. Parhaan luotettavuuden ja suorituskyvyn takaamiseksi vältä muiden Spark-töiden suorittamista samalla Spark-poolilla.
Yhdistä Dataverse Synapse workspaceen ja vie tiedot Delta Lake -muodossa
Kirjaudu Power Appsiin ja valitse haluamasi ympäristö.
Valitse vasemmassa siirtymisruudussa Azure Synapse Link. Jos nimikettä ei ole sivupaneelissa, valitse ... Lisää ja valitse sitten haluamasi nimike.
Valitse komentopalkissa +Uusi linkki
Valitse Muodosta yhteys Azure Synapse Analytics workspaceen ja valitse sitten Tilaus, Resurssiryhmä ja Työtilan nimi.
Valitse Käytä Spark-varantoa käsittelyyn ja valitse sitten esiluodut Spark-varanto ja Tallennustilatili.
Valitse Seuraava.
Lisää vietävät taulukot ja valitse sitten Lisäasetukset.
Valitse halutessasi Näytä määritysten lisäasetukset ja syötä minuutteina aikaväli sille, kuinka usein inkrementaaliset päivitykset suoritetaan.
Valitse Tallenna.
Seuraa Azure Synapse Linkiä ja tietojen muuntamista
- Valitse haluamasi Azure Synapse Link ja valitse sitten Siirry Azure Synapse Analytics workspaceen komentopalkista.
- Valitse Valvonta > Apache Spark -sovellukset. Lisätietoja: Synapse Studion käyttäminen Apache Spark -sovellusten valvomista varten
Tarkastele tietoja Synapse workspacesta
- Valitse haluamasi Azure Synapse Link ja valitse sitten Siirry Azure Synapse Analytics workspaceen komentopalkista.
- Laajenna Lake Databases vasemmassa ruudussa, valitse dataverse-environmentNameorganizationUniqueName ja laajenna sitten Taulukot. Kaikki Parquet-taulukot on lueteltu, ja ne ovat käytettävissä analyysille nimeämiskäytännöllä DataverseTableName. (Non_partitioned Table).
Huomautus
Taulukkoja, joiden nimeämiskäytäntö on _partitioned, ei saa käyttää. Kun muodoksi valitaan Delta parquet, taulukkoja, joiden nimeämiskäytäntö on _partition, käytetään valmistelutaulukoina ja poistetaan, kun järjestelmä on käyttänyt ne.
Tarkastele tietoja lähteestä Azure Data Lake Storage Gen2
- Valitse haluttu Azure Synapse Link ja valitse sitten komentoriviltä Siirry Azure Data Lakeen.
- Valitse Säilöt kohteen Tietovarasto alta.
- Valitse *dataverse- *environmentName-organizationUniqueName. Kaikki Parquet-tiedostot on tallennettu deltalake-kansioon.
Paikallinen Apache Spark 3.3 ja Delta Lake 2.2 -päivitys
Edellytykset
- Synapse Sparkin version 3.1 avulla suoritettava Azure Synapse Link for Dataversen Delta Lake -tallennustilan profiili vaaditaan.
- Luo uusi Synapse Spark -pooli Sparkin version 3.3 avulla käyttämällä samaa tai korkeampaa solmujen laitteistomääritystä samassa Synapse-työtilassa. Lisätietoja Spark-varannon luomisesta on kohdassa Uuden Apache Spark -varannon luominen. Tämä Spark-pooli tulee luoda nykyisestä 3.1-poolista riippumattomana.
Paikallinen päivitys Sparkin version 3.3:
- Kirjaudu sisään Power Appsiin ja valitse haluamasi ympäristö.
- Valitse vasemmassa siirtymisruudussa Azure Synapse Link. Jos nimikettä ei ole vasemmassa siirtymisruudussa, valitse ... Lisää ja valitse sitten haluamasi nimike.
- Avaa Azure Synapse Link -profiili ja valitse sitten Apache Spark 3.3 ja Delta Lake 2.2 -päivitys.
- Valitse luettelosta käytettävissä oleva Spark-pooli ja valitse sitten Päivitä.
Huomautus
Spark-poolin päivitys tapahtuu vain, kun uusi Delta Lake -tallennustilan muunnos Spark-työ käynnistetään. Varmista, että sinulla on vähintään yksi tietomuutos Päivitä-kohdan valinnan jälkeen.