Planlegge overføringen fra Azure Data Factory
Microsoft Fabric er Microsofts saas-produkt for dataanalyse som samler alle Microsofts markedsledende analyseprodukter til én enkelt brukeropplevelse. Fabric Data Factory gir arbeidsflytorkestrering, databevegelse, datareplikering og datatransformasjon i stor skala med lignende funksjoner som finnes i Azure Data Factory (ADF). Hvis du har eksisterende ADF-investeringer som du ønsker å modernisere til Fabric Data Factory, er dette dokumentet nyttig for å hjelpe deg med å forstå overføringshensyn, strategier og tilnærminger.
Overføring fra Azure PaaS ETL/DI-tjenester ADF & Synapse-datasamlebånd og dataflyter kan gi flere viktige fordeler:
- Nye integrerte datasamlebåndfunksjoner, inkludert e-post og Teams-aktiviteter, muliggjør enkel ruting av meldinger under kjøring av datasamlebånd.
- Innebygde funksjoner for kontinuerlig integrering og levering (CI/CD) (utrullingssamlebånd) krever ikke ekstern integrasjon med Git-repositorier.
- Arbeidsområdeintegrering med OneLake-datasjøen muliggjør enkel analysebehandling i enkelt rute av glass.
- Det er enkelt å oppdatere semantiske datamodeller i Fabric med en fullstendig integrert datasamlebåndaktivitet.
Microsoft Fabric er en integrert plattform for både selvbetjente og IT-administrerte virksomhetsdata. Med eksponentiell vekst i datavolumer og kompleksitet krever Fabric-kunder bedriftsløsninger som skalerer, er sikre, enkle å administrere og tilgjengelige for alle brukere på tvers av de største organisasjonene.
De siste årene har Microsoft investert betydelig innsats for å levere skalerbare skyfunksjoner til Premium. For dette formål gir Data Factory in Fabric umiddelbart et stort økosystem av dataintegreringsutviklere og dataintegrasjonsløsninger som ble bygget opp over flere tiår for å bruke hele settet med funksjoner, og funksjoner som går langt utover sammenlignbar funksjonalitet som er tilgjengelig i tidligere generasjoner.
Kunder spør naturligvis om det er en mulighet til å konsolidere ved å være vert for dataintegreringsløsningene sine i Fabric. Vanlige spørsmål omfatter:
- Fungerer all funksjonaliteten vi er avhengig av, i Fabric-rørledninger?
- Hvilke funksjoner er bare tilgjengelige i Fabric Pipelines?
- Hvordan overfører vi eksisterende rørledninger til Fabric-rørledninger?
- Hva er Microsofts veikart for foretaksdatainntak?
Plattformforskjeller
Når du overfører en hel ADF-forekomst, er det mange viktige forskjeller å vurdere mellom ADF og Data Factory i Fabric, som blir viktig når du overfører til Fabric. Vi utforsker flere av disse viktige forskjellene i denne delen.
Hvis du vil ha en mer detaljert forståelse av funksjonell tilordning av funksjonsforskjeller mellom Azure Data Factory og Fabric Data Factory, kan du se Compare Data Factory in Fabric og Azure Data Factory.
Integreringskjøringer
I ADF er integreringskjøringer (IR-er) konfigurasjonsobjekter som representerer databehandling som brukes av ADF til å fullføre databehandlingen. Disse konfigurasjonsegenskapene inkluderer Azure-område for databehandling i skyen og dataflyten Spark-databehandlingsstørrelser. Andre IR-typer inkluderer selvbetjente IR-er (SHIR-er) for lokal datatilkobling, SSIS-IR-er for kjøring av SQL Server Integration Services-pakker og Vnet-aktiverte sky-IR-er.
Microsoft Fabric er et programvare-som-en-tjeneste (SaaS) produkt, mens ADF er et plattform-som-en-tjeneste (PaaS) produkt. Hva dette skillet betyr når det gjelder integreringskjøringer, er at du ikke trenger å konfigurere noe til å bruke datasamlebånd eller dataflyter i Fabric, da standarden er å bruke skybasert databehandling i området der stoffkapasiteten er plassert. SSIS-IR-er finnes ikke i Fabric, og for lokal datatilkobling bruker du en stoffspesifikk komponent kjent som lokal datagateway (OPDG). Og for virtuell nettverksbasert tilkobling til sikrede nettverk bruker du Virtual Network Data Gateway i Fabric.
Når du overfører fra ADF til Fabric, trenger du ikke å overføre IR-er for offentlig nettverk (skybasert). Du må gjenskape SHIR-ene som OPDGs og virtuelt nettverk aktivert Azure IRs som Virtual Network Data Gateways.
Rørledninger
Pipelines er den grunnleggende komponenten i ADF, som brukes til den primære arbeidsflyten og orkestreringen av ADF-prosessene for databevegelse, datatransformasjon og prosessorkestrering. Rørledninger i Fabric Data Factory er nesten identiske med ADF, men med ekstra komponenter som passer til SaaS-modellen basert på Power BI-brønnen. Denne likheten omfatter opprinnelige aktiviteter for oppdateringer av e-postmeldinger, Teams og Semantic Model.
JSON-definisjonen av rørledninger i Fabric Data Factory skiller seg noe fra ADF på grunn av forskjeller i programmodellen mellom de to produktene. På grunn av denne forskjellen er det ikke mulig å kopiere/lime inn datasamlebåndet JSON, importere/eksportere datasamlebånd eller peke på en ADF Git-repositorium.
Når du gjenoppbygger ADF-datasamlebånd som Fabric-rørledninger, bruker du i hovedsak de samme arbeidsflytmodellene og ferdighetene du brukte i ADF. Det primære hensynet har å gjøre med Linked Services og Datasett som er konsepter i ADF som ikke finnes i Fabric.
Koblede tjenester
I ADF definerer Koblede tjenester tilkoblingsegenskapene som kreves for å koble til datalagrene for dataflytting, datatransformasjon og databehandlingsaktiviteter. I Fabric må du gjenskape disse definisjonene som tilkoblinger som er egenskaper for aktivitetene dine, for eksempel Kopier og Dataflyter.
Datasett
Datasett definerer figuren, plasseringen og innholdet i dataene i ADF, men finnes ikke som enheter i Fabric. Hvis du vil definere dataegenskaper som datatyper, kolonner, mapper, tabeller osv. i Fabric Data Factory-datasamlebånd, definerer du disse egenskapene innebygd i datasamlebåndaktiviteter og i tilkoblingsobjektet som det ble referert til tidligere i delen Koblede tjenester.
Dataflyter
I Data Factory for Fabric refererer begrepet dataflyter til de kodefrie datatransformasjonsaktivitetene, mens i ADF kalles den samme funksjonen dataflyter. Fabric Data Factory-dataflyter har et brukergrensesnitt bygget på Power Query, som brukes i ADF Power Query-aktiviteten. Databehandlingen som brukes til å kjøre dataflyter i Fabric, er en opprinnelig kjøringsmotor som kan skaleres ut for datatransformasjon i stor skala ved hjelp av den nye databehandlingsmotoren for Fabric Data Warehouse.
I ADF bygges dataflyter på Synapse Spark-infrastrukturen og defineres ved hjelp av et konstruksjonsbrukergrensesnitt som bruker et underliggende domenespesifikt språk (DSL) kjent som dataflytskript. Dette definisjonsspråket skiller seg betraktelig fra de Power Query-baserte dataflytene i Fabric som bruker et definisjonsspråk som kalles M til å definere virkemåten deres. På grunn av disse forskjellene i brukergrensesnitt, språk og kjøremotorer, er fabric dataflyter og ADF dataflyter ikke kompatible, og du må gjenskape ADF-dataflyter som Fabric -dataflyter når du oppgraderer løsningene til Fabric.
Utløsere
Utløsere signaliserer at ADF kjører et datasamlebånd basert på en tidsplan for veggklokker, tidsnitt i vinduet, filbaserte hendelser eller egendefinerte hendelser. Disse funksjonene er like i Fabric, selv om den underliggende implementeringen er forskjellig.
I Fabric finnes utløsere bare som et rørledningskonsept. Det større rammeverket som pipeline utløser bruk i Fabric kalles Data Activator, som er en hendelse og varsler delsystem av sanntidsintelligensfunksjonene i Fabric.
Fabric Data Activator har varsler som kan brukes til å opprette filhendelser og egendefinerte hendelsesutløsere. Selv om tidsplanutløsere er en egen enhet i Fabric, kjent som tidsplaner. Disse tidsplanene er på plattformnivå i Fabric, og er ikke spesifikke for rørledninger. De er heller ikke referert til som utløsere i Fabric.
Hvis du vil overføre utløserne fra ADF til Fabric, bør du tenke på å gjenoppbygge tidsplanutløserne bare som tidsplaner som er egenskapene til Fabric-rørledninger. Og for alle andre utløsertyper kan du bruke Utløsere-knappen inne i Fabric-datasamlebåndet eller bruke Dataaktivator opprinnelig i Fabric.
Feilsøking
Feilsøking av rørledninger er enklere i Stoff enn i ADF. Denne enkelheten er at Fabric Data Factory-datasamlebånd ikke har et eget konsept for feilsøkingsmodus som du finner i ADF-datasamlebånd og dataflyter. Når du bygger datasamlebåndet, er du i stedet alltid i interaktiv modus. Hvis du vil teste og feilsøke datasamlebånd, trenger du bare å velge avspillingsknappen fra verktøylinjen for datasamlebåndredigering når du er klar i utviklingssyklusen. Pipelines in Fabric inkluderer ikke feilsøking før trinnvis mønster for feilsøking interaktivt. I Fabric bruker du i stedet aktivitetstilstanden og angir bare aktivitetene du ønsker å teste som aktive, mens du setter alle andre aktiviteter til inaktive for å oppnå de samme test- og feilsøkingsmønstrene. Se følgende video som går gjennom hvordan du oppnår denne feilsøkingsopplevelsen i Fabric.
Endre datainnsamling
Endre datahenting (CDC) i ADF er en forhåndsvisningsfunksjon som gjør det enkelt å flytte data raskt på en trinnvis måte ved å bruke CDC-funksjoner på kildesiden i datalagrene. Hvis du vil overføre CDC-artefaktene til Fabric Data Factory, gjenskaper du disse artefaktene på nytt som Kopier jobb elementer i Fabric-arbeidsområdet. Denne funksjonen gir lignende funksjoner for trinnvis databevegelse med et brukervennlig brukergrensesnitt uten å kreve et datasamlebånd, akkurat som i ADF CDC. Hvis du vil ha mer informasjon, kan du se Kopier jobb for Data Factory i Fabric.
Azure Synapse Link
Selv om de ikke er tilgjengelige i ADF, bruker synapse-datasamlebåndbrukere ofte Azure Synapse Link til å replikere data fra SQL-databaser til datasjøen i en nøkkelferdig tilnærming. I Fabric gjenskaper du Azure Synapse Link-artefakter som speilingselementer i arbeidsområdet. Hvis du vil ha mer informasjon, kan du se fabric database som speiler.
SQL Server Integration Services (SSIS)
SSIS er det lokale dataintegrerings- og ETL-verktøyet som Microsoft leverer med SQL Server. I ADF kan du løfte og flytte SSIS-pakkene til skyen ved hjelp av ADF SSIS IR. I Fabric har vi ikke konseptet IR-er, så denne funksjonaliteten er ikke mulig i dag. Vi jobber imidlertid med å aktivere kjøring av SSIS-pakker opprinnelig fra Fabric, som vi håper å bringe til produktet snart. I mellomtiden er den beste måten å utføre SSIS-pakker i skyen med Fabric Data Factory på, å starte en SSIS IR i ADF-fabrikken og deretter aktivere et ADF-datasamlebånd for å ringe SSIS-pakkene dine. Du kan eksternt ringe et ADF-datasamlebånd fra Fabric-datasamlebåndet ved hjelp av den påkalte datasamlebåndaktiviteten som er beskrevet i avsnittet nedenfor.
Aktiver datasamlebåndaktivitet
En vanlig aktivitet som brukes i ADF-datasamlebånd, er Kjør datasamlebåndaktivitet som lar deg ringe et annet datasamlebånd i fabrikken. I Fabric forbedret vi denne aktiviteten etter hvert som aktiver datasamlebåndaktivitet. Se dokumentasjonen for Aktiver datasamlebånd.
Denne aktiviteten er nyttig for overføringsscenarioer der du har mange ADF-datasamlebånd som bruker ADF-spesifikke funksjoner som Tilordning av dataflyter eller SSIS. Du kan vedlikeholde disse datasamlebåndene as-is i ADF- eller Synapse-datasamlebånd, og deretter ringe den linjebundne datasamlebåndet fra det nye Fabric Data Factory-datasamlebåndet ved hjelp av Aktiver rørledningsaktiviteten og peke på den eksterne fabrikkforløpet.
Eksempel på overføringsscenarioer
Følgende scenarioer er vanlige overføringsscenarioer som du kan støte på når du overfører fra ADF til Fabric Data Factory.
Scenario #1: ADF-datasamlebånd og dataflyter
De primære brukstilfellene for fabrikkoverføringer er basert på modernisering av ETL-miljøet fra ADF-fabrikk-PaaS-modellen til den nye Fabric SaaS-modellen. De primære fabrikkelementene som skal overføres, er dataflyter og dataflyter. Det finnes flere grunnleggende fabrikkelementer som du må planlegge for overføring utenfor disse to elementene på øverste nivå: koblede tjenester, integreringstider, datasett og utløsere.
- Koblede tjenester må gjenskapes i Fabric som tilkoblinger i rørledningsaktivitetene dine.
- Datasett finnes ikke i Factory. Egenskapene til datasettene representeres som egenskaper i datasamlebåndaktiviteter som Kopier eller Oppslag, mens tilkoblinger inneholder andre datasettegenskaper.
- Integreringstider finnes ikke i Fabric. Selvadministrerte IR-er kan imidlertid gjenskapes ved hjelp av lokale datagatewayer (OPDG) i Fabric og Azure virtual network IRs som administrerte virtuelle nettverksgatewayer i Fabric.
- Disse ADF-datasamlebåndaktivitetene er ikke inkludert i Fabric Data Factory:
- Data Lake Analytics (U-SQL) – denne funksjonen er en avskrevet Azure-tjeneste.
- Valideringsaktivitet – Valideringsaktiviteten i ADF er en hjelpeaktivitet som du enkelt kan gjenoppbygge i Fabric-datasamlebånd ved hjelp av en Hent metadata-aktivitet, en datasamlebåndsløkke og en If-aktivitet.
- Power Query – I Fabric bygges alle dataflyter ved hjelp av Power Query-brukergrensesnittet, slik at du bare kan kopiere og lime inn M-koden fra ADF Power Query-aktiviteter og bygge dem som dataflyter i Fabric.
- Hvis du bruker noen av ADF-datasamlebåndfunksjonene som ikke finnes i Fabric Data Factory, kan du bruke Aktiver datasamlebåndaktiviteten i Fabric til å kalle opp eksisterende datasamlebånd i ADF.
- Følgende ADF-datasamlebåndaktiviteter kombineres til én enkelt aktivitet:
- Azure Databricks-aktiviteter (Notebook, Jar, Python)
- Azure HDInsight (Hive, Pig, MapReduce, Spark, Streaming)
Følgende bilde viser konfigurasjonssiden for ADF-datasett med filbanen og komprimeringsinnstillingene:
Følgende bilde viser konfigurasjonen av Kopier-aktiviteten for Data Factory i Fabric, der komprimerings- og filbanen er innebygd i aktiviteten:
Scenario #2: ADF med CDC, SSIS og Luftflyt
CDC & Airflow i ADF er forhåndsvisningsfunksjoner, mens SSIS i ADF er en generelt tilgjengelig funksjon i mange år. Hver av disse funksjonene tjener ulike behov for dataintegrering, men krever spesiell oppmerksomhet når du overfører fra ADF til Fabric. Change Data Capture (CDC) er et ADF-konsept på øverste nivå, men i Fabric ser du denne funksjonen som Kopier jobb.
Airflow er den ADF skyadministrerte Apache Airflow-funksjonen og er også tilgjengelig i Fabric Data Factory. Du bør kunne bruke samme airflow-kilderepo eller ta DAGs og kopiere / lime inn koden i Fabric Airflow-tilbudet med liten eller ingen endring som kreves.
Scenario #3: Git-aktivert datafabrikkoverføring til Stoff
Det er vanlig, men ikke nødvendig, at ADF- eller Synapse-fabrikkene og arbeidsområdene er koblet til din egen eksterne Git-leverandør i ADO eller GitHub. I dette scenarioet må du overføre fabrikk- og arbeidsområdeelementene til et Fabric-arbeidsområde og deretter konfigurere Git-integrasjon på Fabric-arbeidsområdet.
Fabric tilbyr to primære måter å aktivere CI/CD på, både på arbeidsområdenivå: Git-integrering, der du tar med din egen Git-repositorium i ADO og kobler til den fra Fabric og innebygde utrullingssamlebånd der du kan heve koden til høyere miljøer uten å måtte ta med din egen Git.
I begge tilfeller fungerer ikke den eksisterende Git-repositoriet fra ADF med Fabric. I stedet må du peke på en ny repo, eller starte en ny utrullingsforløp i Fabric, og gjenoppbygge rørledningsartefaktene i Fabric.
Montere eksisterende ADF-forekomster direkte til et Fabric-arbeidsområde
Tidligere snakket vi om å bruke Fabric Data Factory Invoke Pipeline-aktiviteten som en mekanisme for å opprettholde eksisterende ADF-rørledningsinvesteringer og kalle dem innebygd fra Fabric. I Fabric kan du ta det lignende konseptet ett skritt videre og montere hele fabrikken inne i Fabric-arbeidsområdet som et opprinnelig Stoff-element.
Hvis du vil ha mer informasjon om montering av bruksscenarioer, kan du se samarbeids- og leveringsscenarioer for innhold.
Montering av Azure Data Factory i Fabric-arbeidsområdet gir mange fordeler å vurdere. Hvis du er ny på Fabric og ønsker å holde fabrikkene side ved side innenfor samme glassrute, kan du montere dem i Fabric slik at du kan administrere begge innsiden av Fabric. Det komplette ADF-brukergrensesnittet er nå tilgjengelig for deg fra den monterte fabrikken der du kan overvåke, administrere og redigere ADF-fabrikkelementene fullstendig fra Fabric-arbeidsområdet. Denne funksjonen gjør det mye enklere å begynne å overføre disse elementene til Fabric som opprinnelige Fabric-artefakter. Denne funksjonen er først og fremst for brukervennlighet og gjør det enkelt å se ADF-fabrikkene i Fabric-arbeidsområdet. Den faktiske kjøringen av datasamlebånd, aktiviteter, integreringskjøringer osv., forekommer imidlertid fortsatt i Azure-ressursene dine.