Azure Data Factorysta siirtämisen suunnitteleminen
Microsoft Fabric on Microsoftin SaaS-data-analytiikan tuote, joka tuo yhteen yhteen käyttökokemukseen kaikki Microsoftin markkinapään analytiikkatuotteet. Fabric Data Factory tarjoaa työnkulun orkestroinnin, tietojen siirron, tietojen replikoinnin ja tietojen muunnoksen mittakaavassa vastaavilla Azure Data Factoryn (ADF) ominaisuuksilla. Jos sinulla on olemassa olevia ADF-investointeja, joita haluat nykyaikaistaa Fabric Data Factoryen, tästä asiakirjasta on hyötyä, jotta ymmärrät siirtymisen huomioitavat asiat, strategiat ja lähestymistavat.
Siirtyminen Azure PaaS ETL/DI -palveluista ADF & Synapse-putkista ja tietotyönkuluista voi tarjota useita tärkeitä etuja:
- Uudet integroidut putkiominaisuudet, kuten sähköposti- ja Teams-toiminnot, mahdollistavat sanomien helpon reitityksen putken suorituksen aikana.
- Sisäiset jatkuvan integroinnin ja toimituksen (CI/CD) ominaisuudet (käyttöönottoputket) eivät edellytä ulkoista integrointia Git-säilöihin.
- Työtilan integrointi OneLake Data Lakeen mahdollistaa yhden lasiruudun helpon analytiikan hallinnan.
- Semanttisten tietomallien päivittäminen on helppoa Fabricissa täysin integroidulla putkitoiminnalla.
Microsoft Fabric on integroitu ympäristö sekä omatoimisille että IT-hallittuihin yritystietoihin. Datamäärien eksponentiaalisen kasvun ja monimutkaisuuden myötä Fabric-asiakkaat vaativat skaalattavia, suojattuja, helppoja ja kaikkien organisaatioiden suurimpien käyttäjien käytettävissä olevia yritysratkaisuja.
Viime vuosina Microsoft on panostanut merkittävästi skaalattavien pilvipalvelujen tarjoamiseen Premiumiin. Tätä varten FabricIn Data Factory tarjoaa välittömästi mahdollisuuden suuren tietointegraatiokehittäjien ja tietojen integrointiratkaisujen ekosysteemiin, jotka on rakennettu vuosikymmenten aikana käyttämään kaikkia ominaisuuksia ja ominaisuuksia, jotka menevät paljon pidemmälle kuin aiemmissa sukupolvissa saatavilla olevat vertailukelpoiset toiminnot.
Asiakkaat kysyvät luonnollisesti, onko mahdollisuutta yhdistää isännöimällä tietojen integrointiratkaisuja Fabricissa. Yleisiä kysymyksiä ovat seuraavat:
- Onko kaikki toiminnot, jotka riippuvat Fabric-putkien työstä?
- Mitkä ominaisuudet ovat käytettävissä vain Fabric-putkissa?
- Miten siirrämme olemassa olevat putket Fabric-putkiin?
- Mikä on Microsoftin suunnitelma yritystietojen käsittelylle?
Käyttöympäristön erot
Kun siirrät koko ADF-esiintymän, ADF:n ja Fabricissa olevan Data Factoryn välillä on monia tärkeitä eroja, jotka ovat tärkeitä siirryttäessä Fabriciin. Tutustumme näihin tärkeiin eroihin tässä osiossa.
Jos haluat tarkempia tietoja Azure Data Factoryn ja Fabric Data Factoryn ominaisuuksien erojen funktionaalisesta kartoituksesta, tutustu ohjeartikkeliin Compare Data Factory in Fabric ja Azure Data Factory.
Integroinnin suorituspalvelut
ADF:ssä integroinnin suorituspalvelut (IR) ovat määritysobjekteja, jotka edustavat tietojenkäsittelyä, jota ADF käyttää tietojen käsittelyn viimeistelemiseen. Nämä määritysominaisuudet sisältävät Azure-alueen pilvipalvelut ja tietovuon Spark-käsittelykoot. Muita infrapunatyyppejä ovat omat isännöidyt rs:t (SHIR) paikallista tietoyhteyttä varten, SSIS-kutsut SQL Server -integrointipalvelupakettien suorittamiseen ja Vnetiä käyttävät pilvipalvelun IR:t.
Microsoft Fabric on SaaS-tuote, kun taas ADF on palveluna (PaaS) -tuote. Tämä erotus tarkoittaa integraation suorituspalveluissa sitä, että Sinun ei tarvitse määrittää mitään, jotta voit käyttää Fabric-putkia tai tietovoita. Oletusarvona on käyttää pilvipohjaista käsittelyä alueella, jolla Fabric-kapasiteettisi sijaitsevat. SSIS-IR-pyyntöjä ei ole Fabricissa, ja paikallisissa tietoyhteyksissä käytetään Fabric-kohtaista osaa, joka tunnetaan nimellä paikallinen tietoyhdyskäytävä (OPDG). Voit käyttää myös näennäisverkkopohjaista yhteyttä suojattuihin verkkoihin Fabric-näennäisverkon tietoyhdyskäytävän avulla.
Kun siirryt ADF:stä Fabriciin, sinun ei tarvitse siirtää Azuren (pilvipalvelun) julkisia verkko-IR-pyyntöjä. Sinun on luotava SHIR-ytimet uudelleen OPDG:nä ja näennäisverkkoa käyttävinä Azure-tunnuksina, kun näennäisverkon tietoyhdyskäytävät.
Putkistot
Putket ovat ADF:n perusosa. Sitä käytetään ADF-prosessien ensisijaisessa työnkulussa ja orkestroinnissa tietojen siirtämistä, tietojen muuntamista ja prosessien orkestraatiota varten. Fabric Data Factoryn putket ovat lähes samanlaiset kuin ADF, mutta ne sisältävät Ylimääräisiä komponentteja, jotka sopivat Power BI :hin perustuvaan SaaS-malliin. Tämä samankaltaisuus sisältää sähköpostien, Teamsin ja semanttisen mallin päivitysten alkuperäiset toiminnot.
Fabric Data Factoryn putkien JSON-määritelmä eroaa hieman ADF:stä näiden kahden tuotteen sovellusmallin erojen vuoksi. Tämän eron vuoksi ei ole mahdollista kopioida/liittää jaksoa JSON- tai tuonti-/vientiputkia tai osoittaa ADF Git -säilöön.
Kun muodostat ADF-putkia uudelleen Fabric-putkina, käytät olennaisilta osiltaan samoja työnkulkumalleja ja taitoja, joita käytit ADF:ssä. Päähuoltavuus liittyy Linked Servicesiin ja tietojoukkoihin, jotka ovat ADF:n käsitteitä, joita ei ole Fabricissa.
Linkitetyt palvelut
ADF:ssä Linked Services määrittää yhteysominaisuudet, joita tarvitaan yhteyden muodostamiseen tietosäilöihisi tietojen siirtämistä, tietojen muuntamista ja tietojenkäsittelyä varten. Fabricissa sinun on luotava nämä määritelmät uudelleen yhteyksinä, jotka ovat toimintojen ominaisuuksia, kuten Kopioi ja Tietovuot.
Tietokokonaisuuksien
Tietojoukot määrittävät tietojen muodon, sijainnin ja sisällön ADF:ssä, mutta niitä ei ole Fabricissa entiteetteinä. Jos haluat määrittää Fabric Data Factory -putkien tietoominaisuuksien, kuten tietotyyppien, sarakkeiden, kansioiden, taulukoiden jne., nämä ominaisuudet määritetään sisäisesti putkitoimintojen sisällä ja Yhteys-objektissa, johon viitataan aiemmin Linkitetty palvelu -osassa.
Tietovuot
Data Factory for Fabricissa termi tietovoiden viittaa koodittomaan tiedonmuunnostoimintoon, kun taas ADF:ssä samaa ominaisuutta kutsutaan tietovuot. Fabric Data Factory -tietovoiden käyttöliittymä perustuu Power Queryyn, jota käytetään ADF:n Power Query -toiminnassa. Fabric-tietovoiden suorittamiseen käytetty käsittely on alkuperäinen suoritusmoduuli, joka voidaan skaalata suuren mittakaavan tietojen muuntamiseen uuden Fabric Data Warehouse -laskentamoduulin avulla.
ADF:ssä tietovuot perustuvat Synapse Spark -infrastruktuuriin ja määritellään käyttämällä rakennuskäyttöliittymää, joka käyttää pohjana olevaa toimialuekohtaista kieltä (DSL), joka tunnetaan nimellä tietovuon komentosarja. Tämä määrityskieli eroaa huomattavasti Fabricin Power Query -pohjaisista tietovoista, jotka käyttävät määrityskieltä, joka tunnetaan nimellä M niiden toiminnan määrittämiseen. Näiden käyttöliittymien, kielten ja suoritusmoottoreiden erojen vuoksi Fabric tietovuot ja ADF tietovuot eivät ole yhteensopivia. Sinun on luotava uudelleen ADFtietovuot, sillä Fabric-tietovuot päivittäessäsi ratkaisuja Fabric-ratkaisuihin.
Laukaisee
Käynnistää signaalin ADF suorittaakseen putken, joka perustuu seinän kellonaikaaikatauluun, jyriseviä aikaosituksia, tiedostopohjaisia tapahtumia tai mukautettuja tapahtumia. Nämä ominaisuudet ovat samankaltaisia Fabricissa, vaikka pohjana oleva toteutus on erilainen.
Fabricissa käynnistimet olemassa vain putkikäsitteenä. Suurempi kehys, jonka putki käynnistää käytön Fabric tunnetaan nimellä Data Activator, joka on Fabricin Reaaliaikaisten ominaisuuksien reaaliaikaisten ominaisuuksien tapahtuma- ja ilmoitusosajärjestelmä.
Fabric Data Activator sisältää hälytyksiä, joiden avulla voidaan luoda tiedostotapahtuma ja mukautetut tapahtumakäynnistimet. Vaikka aikataulukäynnistimet ovat Fabricissa erillinen entiteetti, jota kutsutaan aikatauluiksi. Nämä aikataulut ovat Fabricissa alustatasolla, eivät erityisesti putkissa. Niitä ei myöskään kutsuta Fabricissa nimellä käynnistimet.
Jos haluat siirtää käynnistimet ADF:stä Fabriciin, mieti aikataulukäynnistimien uudelleenrakentamista vain aikatauluina, jotka ovat Fabric-putkien ominaisuuksia. Ja kaikkien muiden käynnistintyyppien kohdalla paina Fabric-putken sisällä olevaa Käynnistin-painiketta tai käytä Fabricissa suoraan Data Activator -toimintoa.
Virheenkorjaus
Virheenkorjausputket ovat Fabricissa yksinkertaisempia kuin ADF:ssä. Tämä yksinkertaisuus johtuu siitä, että Fabric Data Factory -putkissa ei ole erillisiä virheenkorjaustilan, joita löydät ADF-putkista ja tietovoista. Sen sijaan kun luot putken, olet aina vuorovaikutteisessa tilassa. Jos haluat testata ja korjata putkia, sinun tarvitsee valita toistopainike Putkieditori-työkaluriviltä vain, kun olet valmis kehitysjaksoon. Fabric-jaksot eivät sisällä virheenkorjausta, ennen kuin vuorovaikutteisen virheenkorjauksen vaiheittaisen mallin. Fabric-funktiossa käytät sen sijaan toimintotilaa ja määrität vain ne toiminnot, jotka haluat testata aktiivisina, samalla kun määrität kaikki muut toiminnot passiivisiksi saman testauksen ja virheiden rakenteen saavuttamiseksi. Katso seuraava video, jossa esitellään, miten voit toteuttaa tämän virheenkorjauksen Fabricissa.
Muuta tietosieppaus
Change Data Capture (CDC) in ADF on esikatseluominaisuus, jonka avulla tietoja on helppo siirtää nopeasti lisäävällä tavalla käyttämällä tietosäilöjen lähdepuolen CDC-ominaisuuksia. Jos haluat siirtää CDC-artefaktisi Fabric Data Factoryen, luot nämä artefaktit uudelleen, kun Kopioi työ Kohteita Fabric-työtilassasi. Tämä ominaisuus tarjoaa samanlaiset toiminnot lisäävän tietojen siirtämiseen helppokäyttöisen käyttöliittymän avulla ilman jaksoa, aivan kuten ADF CDC:ssä. Lisätietoja on artikkelissa Kopioi työt For Data Factory in Fabric.
Azure Synapse -linkki
Vaikka Synapse-putken käyttäjät eivät ole käytettävissä ADF:ssä, he käyttävät usein Azure Synapse -linkkiä replikoidakseen tietoja SQL-tietokannoista Data Lake -tallennustilaan avaimet käteen -lähestymistavassa. Fabricissa luot uudelleen Azure Synapse Link -artefaktit työtilasi peilattuina kohteina. Lisätietoja on artikkelissa Fabric tietokantapeilaus.
SQL Server -integrointipalvelut (SSIS)
SSIS on paikallinen tietojen integrointi- ja ETL-työkalu, jonka Microsoft toimittaa SQL Serverin kanssa. ADF:ssä voit siirtää SSIS-paketit pilveen ADF SSIS IR:n avulla. Fabricissa ei ole IRs-käsitettä, joten tämä toiminto ei ole mahdollista tällä hetkellä. Pyrimme kuitenkin siihen, että SSIS-paketin suorittaminen otetaan käyttöön suoraan Fabricista, jonka toivomme tuovamme tuotteeseen pian. Sillä välin paras tapa suorittaa SSIS-paketteja pilvipalvelussa Fabric Data Factoryn avulla on käynnistää SSIS IR ADF-tehtaassa ja käynnistää sitten ADF-putki SSIS-pakettien kutsumiseksi. Voit etäkutsua ADF-putken Fabric-putkista käyttämällä seuraavassa osiossa kuvattua Käynnistetty putki -toimintaa.
Jakson aktiviteetin käynnistäminen
ADF-jaksoissa käytetään usein Suorita jakson toiminta - jonka avulla voit kutsua toista putkea tehtaassasi. Fabricissa tätä toimintoa parannettiin niin, että käynnistää putkien toiminnan. Katso Käynnistä putken toiminta dokumentaatiosta.
Tästä toiminnosta on hyötyä siirtotilanteissa, joissa on useita ADF-putkia, jotka käyttävät ADF-kohtaisia ominaisuuksia, kuten Tietotyönkulkujen tai SSIS:n yhdistämistä. Voit säilyttää kyseiset putket as-is ADF- tai synapse-putkissa ja kutsua sitten kyseisen putken sisäisesti uudesta Fabric Data Factory -putkesta käyttämällä Käynnistä putki -toimintoa ja osoittamalla etätehdasputkeen.
Esimerkkien siirtämisskenaariot
Seuraavassa on yleisiä siirtymistilanteita, joita voi kohdata siirtyessäsi ADF:stä Fabric Data Factoryen.
Skenaario 1: ADF-putket ja tietovuot
Tehtaiden siirtojen ensisijaiset käyttötapaukset perustuvat ETL-ympäristön nykyaikaistamiseen ADF-tehtaan PaaS-mallista uuteen Fabric SaaS -malliin. Ensisijaiset siirrettävät tehdaskohteet ovat putket ja tietovuot. Sinun on suunniteltava siirtoa näiden kahden ylimmän tason kohteen ulkopuolelle useilla keskeisillä tehdaselementeillä: linkitetyt palvelut, integroinnin suorituspalvelut, tietojoukot ja käynnistimet.
- Linkitetyt palvelut on luotava uudelleen Fabricissa putkitoimintojen yhteyksinä.
- Tietojoukkoja ei ole Factoryssa. Tietojoukkojen ominaisuudet esitetään ominaisuutena putkitoiminnoissa, kuten Kopioi tai Haku, kun taas yhteydet sisältävät muita tietojoukon ominaisuuksia.
- Integroinnin suorituspalveluita ei ole Fabricissa. Itse isännöidyt IR:si voidaan kuitenkin luoda uudelleen käyttäen paikallisia tietoyhdyskäytäviä (OPDG) Fabricissa ja Azure-näennäisverkon IR:iä Hallittuina näennäisverkkoyhdyskäytävienä Fabricissa.
- Nämä ADF-putkitoiminnot eivät sisälly Fabric Data Factoryen:
- Data Lake Analytics (U-SQL) – Tämä ominaisuus on vanhentunut Azure-palvelu.
- Vahvistustoiminto: ADF:n vahvistustoiminto on aputoiminto, jonka voit luoda uudelleen Fabric-jaksoissa helposti käyttämällä Hae metatiedot -toimintoa, putkisilmukkaa ja If-toimintoa.
- Power Query: Fabricissa kaikki tietovuot luodaan Power Query -käyttöliittymän avulla, joten voit kopioida ja liittää M-koodin ADF:n Power Query -toiminnoista ja rakentaa ne Fabric-tietovoina.
- Jos käytät ADF-putkiominaisuuksia, joita ei löydy Fabric Data Factorysta, käytä Fabricin Käynnistä putki -toimintoa, jotta voit kutsua olemassa olevia putkia ADF:ssä.
- Seuraavat ADF-putkitoiminnot yhdistetään yksikäyttöisiksi toimiksi:
- Azure Databricks activities (Notebook, Jar, Python)
- Azure HDInsight (Hive, Pig, MapReduce, Spark, Streaming)
Seuraavassa kuvassa näkyy ADF-tietojoukon määrityssivu, jolla on tiedostopolku ja pakkausasetukset:
Seuraavassa kuvassa näytetään Data Factoryn Kopioi-toiminnon määritys Fabricissa, jossa pakkaus ja tiedostopolku sisältyvät toimintoon:
Skenaario 2: ADF cdc:n, SSIS:n ja ilmavuon kanssa
CDC & Airflow ADF:ssä ovat esiversio-ominaisuuksia, kun taas ADF:n SSIS on yleisesti saatavilla oleva ominaisuus monien vuosien ajan. Jokainen näistä ominaisuuksista vastaa tietojen integroinnin erilaisia tarpeita, mutta se edellyttää erityistä huomiota siirryttäessä ADF:stä Fabriciin. Change Data Capture (CDC) on huipputason ADF-konsepti, mutta Fabricissa näet tämän ominaisuuden Kopioi työ -.
Ilmavuo on ADF:n pilvihallitun Apache Airflow -ominaisuus, ja se on saatavilla myös Fabric Data Factoryssa. Sinun pitäisi voida käyttää samaa Airflow-lähde säilöä tai ottaa daG-mittarit ja kopioida ja liittää koodi Fabric Airflow -ilmavirtaan niin, että muutoksia ei tarvita juuri lainkaan.
Skenaario 3: Git-käyttöinen Data Factory -siirto Fabriciin
Vaikka ADF- tai Synapse-tehtaat ja -työtilat ovat kuitenkin pakollisia, on kuitenkin yhdistetty omaan ulkoiseen Git-palveluun ADO:ssa tai GitHubissa. Tässä skenaariossa sinun on siirrettävä tehdas- ja työtilakohteesi Fabric-työtilaan ja määritettävä sitten Git-integrointi Fabric-työtilaan.
Fabric tarjoaa kaksi ensisijaista tapaa ottaa CI/CD käyttöön sekä työtilatasolla: Git-integrointi, johon tuot oman Git-säilön ADO:ssa ja muodostat siihen yhteyden Fabricista ja sisäänrakennetuista käyttöönottoputkista, joissa voit ylentää koodin korkeampiin ympäristöihin ilman, että sinun tarvitsee tuoda omaa Git-ympäristöäsi.
Kummassakin tapauksessa ADF:n aiemmin luotu Git-säilö ei toimi Fabricin kanssa. Sen sijaan sinun täytyy ohjata uuteen säilöön tai käynnistää uusi käyttöönottoputki Fabricissa ja rakentaa putki-artefaktit uudelleen Fabricissa.
Olemassa olevien ADF-esiintymien ottaminen käyttöön suoraan Fabric-työtilaan
Aiemmin puhuimme Fabric Data Factory Invoke Pipeline -toiminnan käyttämisestä mekanismina olemassa olevien ADF-putki-investointien säilyttämiseksi ja Fabricin sisäisenä kutsumiseksi. Fabricissa samantapaisen konseptin voi ottaa askeleen pidemmälle ja asentaa koko tehtaan Fabric-työtilan sisään alkuperäiseksi Fabric-kohteeksi.
Lisätietoja käyttötilanteiden lisäämisestä on kohdassa Sisältöyhteistyön ja toimitustilanteiden.
Azure Data Factoryn ottaminen sisään Fabric-työtilaan tuo monia huomioitavia etuja. Jos olet uusi Fabric-käyttäjä ja haluat pitää tehtaat rinnakkain samassa lasiruudussa, voit asentaa ne Fabriciin, jotta voit hallita molempia Fabric-ruutujen sisällä. Koko ADF-käyttöliittymä on nyt käytettävissäsi asennetusta tehtaasta, jossa voit valvoa, hallita ja muokata ADF-tehdaskohteita kokonaan Fabric-työtilassa. Tämän ominaisuuden avulla on paljon helpompi aloittaa näiden kohteiden siirtäminen Fabriciin alkuperäisinä Fabric-artefakteina. Tämä ominaisuus on ensisijaisesti helppokäyttöisyyden vuoksi ja sen avulla on helppo nähdä ADF-tehtaat Fabric-työtilassasi. Jaksojen, toimintojen, integraation suorituspalveluiden jne. todellinen suoritus suoritetaan kuitenkin edelleen Azure-resurssiesi sisällä.
Aiheeseen liittyvä sisältö
huomioitavaa siirtymisessä ADF:stä Data Factoryen Fabricissa