Del via


Hurtig start: Flyt og transformér data med dataflow og datapipelines

I dette selvstudium finder du ud af, hvordan dataflow- og datapipelineoplevelsen kan skabe en effektiv og omfattende Data Factory-løsning.

Forudsætninger

Du skal have følgende forudsætninger for at komme i gang:

Dataflow sammenlignet med pipelines

Med Dataflow Gen2 kan du bruge en grænseflade med lav kode og mere end 300 data og AI-baserede transformationer, så du nemt kan rense, forberede og transformere data med større fleksibilitet end noget andet værktøj. Datapipelines gør det muligt at oprette fleksible dataarbejdsprocesser, der opfylder virksomhedens behov, ved hjælp af avancerede orkestreringsfunktioner til dataorkestrering. I en pipeline kan du oprette logiske grupperinger af aktiviteter, der udfører en opgave, hvilket kan omfatte at kalde et dataflow for at rense og forberede dine data. Selvom der er nogle funktionalitetsoverlapninger mellem de to, afhænger valget af, hvilken du vil bruge til et bestemt scenarie, af, om du har brug for en komplet mængde pipelines, eller om du kan bruge de enklere, men mere begrænsede funktioner i dataflow. Du kan få flere oplysninger i Fabric-beslutningsvejledningen

Transformér data med dataflow

Følg disse trin for at konfigurere dit dataflow.

Trin 1: Opret et dataflow

  1. Vælg dit Fabric-aktiverede arbejdsområde, og vælg derefter Ny. Vælg derefter Dataflow Gen2.

    Skærmbillede, der viser, hvor du kan begynde at oprette et dataflow gen2.

  2. Vinduet datafloweditor vises. Vælg kortet Importér fra SQL Server.

    Skærmbillede, der viser vinduet datafloweditor.

Trin 2: Hent data

  1. I dialogboksen Opret forbindelse til datakilde, der vises derefter, skal du angive detaljerne for at oprette forbindelse til din Azure SQL-database og derefter vælge Næste. I dette eksempel skal du bruge den AdventureWorksLT- eksempeldatabase, der konfigureres, når du konfigurerer Azure SQL-databasen i forudsætningerne.

    Skærmbillede, der viser, hvordan du opretter forbindelse til en Azure SQL-database.

  2. Vælg de data, du vil transformere, og vælg derefter Opret. I denne hurtige introduktion skal du vælge SalesLT.Customer- fra AdventureWorksLT- eksempeldata, der er angivet for Azure SQL DB, og derefter knappen Vælg relaterede tabeller for automatisk at inkludere to andre relaterede tabeller.

    Skærmbillede, der viser, hvor du kan vælge mellem de tilgængelige data.

Trin 3: Transformér dine data

  1. Hvis den ikke er markeret, skal du vælge knappen diagramvisning langs statuslinjen nederst på siden eller vælge Diagramvisning under menuen Vis øverst i Power Query-editoren. En af disse indstillinger kan slå diagramvisningen til eller fra.

    Skærmbillede, der viser, hvor du kan vælge diagramvisning.

  2. Højreklik på forespørgslen SalesLT Customer, eller vælg den lodrette ellipse til højre for forespørgslen, og vælg derefter Flet forespørgsler.

    Skærmbillede, der viser, hvor du kan finde indstillingen Flet forespørgsler.

  3. Konfigurer fletningen ved at vælge den SalesLTOrderHeader- tabel som den højre tabel til fletningen, CustomerID kolonne fra hver tabel som joinkolonne og venstre ydre som joinforbindelsestype. Vælg derefter OK for at tilføje fletteforespørgslen.

    Skærmbillede af konfigurationsskærmen Flet.

  4. Vælg knappen Tilføj datadestination, der ligner et databasesymbol med en pil over den, fra den nye fletteforespørgsel, du har oprettet. Vælg derefter Azure SQL-database som destinationstype.

    Skærmbillede, der fremhæver knappen Tilføj datadestination i den nyoprettede fletteforespørgsel.

  5. Angiv oplysninger om din Azure SQL-databaseforbindelse, hvor fletteforespørgslen skal publiceres. I dette eksempel kan du også bruge databasen AdventureWorksLT, som vi brugte som datakilde for destinationen.

    Skærmbillede, der viser dialogboksen Opret forbindelse til datadestination med udfyldte eksempelværdier.

  6. Vælg en database, hvor dataene skal gemmes, og angiv et tabelnavn, og vælg derefter Næste.

    Skærmbillede, der viser vinduet Vælg destinationsmål.

  7. Du kan lade standardindstillingerne være i dialogboksen Vælg destinationsindstillinger og blot vælge Gem indstillinger uden at foretage ændringer her.

    Skærmbillede, der viser dialogboksen Vælg destinationsindstillinger.

  8. Vælg Publicer tilbage på siden med datafloweditoren for at publicere dataflowet.

    Skærmbillede, der fremhæver knappen Publicer i redigeringsprogrammet til dataflow gen2.

Flyt data med datapipelines

Nu, hvor du har oprettet et Dataflow Gen2, kan du arbejde med det i en pipeline. I dette eksempel kopierer du de data, der er genereret fra dataflowet, til tekstformat på en Azure Blob Storage-konto.

Trin 1: Opret en ny datapipeline

  1. Vælg Nyi dit arbejdsområde, og vælg derefter Datapipeline.

    Skærmbillede, der viser, hvor en ny datapipeline skal startes.

  2. Navngiv pipelinen, og vælg derefter Opret.

    Skærmbillede, der viser prompten om oprettelse af ny pipeline med et eksempel på et pipelinenavn.

Trin 2: Konfigurer dit dataflow

  1. Føj en ny dataflowaktivitet til din datapipeline ved at vælge dataflow under fanen Aktiviteter.

    Skærmbillede, der viser, hvor du kan vælge indstillingen Dataflow.

  2. Vælg dataflowet på pipelinelærredet, og derefter fanen Indstillinger. Vælg det dataflow, du oprettede tidligere, på rullelisten.

    Skærmbillede, der viser, hvordan du vælger det dataflow, du har oprettet.

  3. Vælg Gem, og derefter Kør for at køre dataflowet for først at udfylde den flettede forespørgselstabel, du designede i det foregående trin.

    Skærmbillede, der viser, hvor du skal vælge Kør.

Trin 3: Brug kopiassistenten til at tilføje en kopiaktivitet

  1. Vælg Kopiér data på lærredet for at åbne værktøjet til kopiassistent for at komme i gang. Eller vælg Brug kopiassistent på rullelisten Kopiér data under fanen Aktiviteter på båndet.

    Skærmbillede, der viser de to måder at få adgang til kopiassistenten på.

  2. Vælg din datakilde ved at vælge en datakildetype. I dette selvstudium skal du bruge den Azure SQL Database, der tidligere blev brugt, da du oprettede dataflowet, til at generere en ny fletteforespørgsel. Rul ned under eksempeldatatilbudene, og vælg fanen Azure, og derefter Azure SQL Database. Vælg derefter Næste for at fortsætte.

    Skærmbillede, der viser, hvor du skal vælge en datakilde.

  3. Opret en forbindelse til datakilden ved at vælge Opret ny forbindelse. Udfyld de påkrævede forbindelsesoplysninger i panelet, og angiv AdventureWorksLT for databasen, hvor vi oprettede fletteforespørgslen i dataflowet. Vælg derefter Næste.

    Skærmbillede, der viser, hvor du kan oprette en ny forbindelse.

  4. Vælg den tabel, du oprettede i dataflowtrinnet tidligere, og vælg derefter Næste.

    Skærmbillede, der viser, hvordan du vælger fra tilgængelige tabeller.

  5. Vælg Azure Blob Storage- for destinationen, og vælg derefter Næste.

    Skærmbillede, der viser Azure Blob Storage-datadestinationen.

  6. Opret en forbindelse til destinationen ved at vælge Opret ny forbindelse. Angiv detaljerne for forbindelsen, og vælg derefter Næste.

    Skærmbillede, der viser, hvordan du opretter en forbindelse.

  7. Vælg stien til den mappe, og angiv et Filnavn, og vælg derefter Næste.

    Skærmbillede, der viser, hvordan du vælger mappesti og filnavn.

  8. Vælg Næste igen for at acceptere standardfilformatet, kolonneafgrænseren, rækkeafgrænseren og komprimeringstypen, eventuelt inklusive en overskrift.

    Skærmbillede, der viser konfigurationsindstillingerne for filen i Azure Blob Storage.

  9. Afslut indstillingerne. Gennemse og vælg derefter Gem + Kør for at afslutte processen.

    Skærmbillede, der viser, hvordan du gennemser indstillingerne for kopiering af data.

Trin 5: Design din datapipeline, og gem for at køre og indlæse data

  1. Hvis du vil køre Kopiér-aktivitet efter --aktivitet, skal du trække fra lykkedes aktivitet for dataflowet til den Kopiér-aktivitet. Den Kopiér-aktivitet kører kun, når dataflowaktiviteten er fuldført.

    Skærmbillede, der viser, hvordan dataflowet køres efter kopiaktiviteten.

  2. Vælg Gem for at gemme din datapipeline. Vælg derefter Kør for at køre din datapipeline og indlæse dataene.

    Skærmbillede, der viser, hvor du skal vælge Gem og kør.

Planlæg udførelse af pipeline

Når du er færdig med at udvikle og teste din pipeline, kan du planlægge, at den skal udføres automatisk.

  1. Vælg Planlægpå fanen Startside i vinduet pipelineeditor.

    Et skærmbillede af knappen Tidsplan i menuen under fanen Hjem i pipelineeditoren.

  2. Konfigurer tidsplanen efter behov. I eksemplet her planlægges pipelinen til at blive udført dagligt kl. 20:00 indtil slutningen af året.

    Skærmbillede, der viser konfigurationen af tidsplanen for en pipeline, der skal køre dagligt kl. 20:00 indtil udgangen af året.

I dette eksempel kan du se, hvordan du opretter og konfigurerer en Dataflow Gen2 for at oprette en fletteforespørgsel og gemme den i en Azure SQL-database og derefter kopiere data fra databasen til en tekstfil i Azure Blob Storage. Du har lært, hvordan du:

  • Opret et dataflow.
  • Transformér data med dataflowet.
  • Opret en datapipeline ved hjælp af dataflowet.
  • Bestil udførelsen af trin i pipelinen.
  • Kopiér data med Kopiér assistent.
  • Kør og planlæg din datapipeline.

Gå derefter videre for at få mere at vide om overvågning af dine pipelinekørsler.