Hurtig start: Opret dit første dataflow for at hente og transformere data
Dataflow er en selvbetjent, cloudbaseret teknologi til dataforberedelse. I denne artikel opretter du dit første dataflow, henter data til dit dataflow, transformerer derefter dataene og publicerer dataflowet.
Forudsætninger
Der kræves følgende forudsætninger, før du starter:
- En Microsoft Fabric-lejerkonto med et aktivt abonnement. Opret en gratis konto.
- Sørg for, at du har et Arbejdsområde, der er aktiveret af Microsoft Fabric: Opret et arbejdsområde.
Oprette et dataflow
I dette afsnit opretter du dit første dataflow.
Skift til datafabrikken.
Gå til dit Microsoft Fabric-arbejdsområde.
Vælg Ny, og vælg derefter Dataflow Gen2.
Hent data
Lad os hente nogle data! I dette eksempel henter du data fra en OData-tjeneste. Brug følgende trin til at hente data i dit dataflow.
I datafloweditoren skal du vælge Hent data og derefter vælge Mere.
Vælg Vis mere i Vælg datakilde.
I Ny kilde skal du vælge Andre>OData som datakilde.
Angiv URL-adressen
https://services.odata.org/v4/northwind/northwind.svc/
, og vælg derefter Næste.Vælg tabellerne Orders og Customers, og vælg derefter Opret.
Du kan få mere at vide om hent dataoplevelsen og -funktionaliteten under Oversigt over hentning af data.
Anvend transformationer, og publicer
Du har indlæst dine data i dit første dataflow nu. Tillykke! Nu er det tid til at anvende et par transformationer for at få disse data ind i den ønskede form.
Du udfører denne opgave fra Power Query-editoren. Du kan finde en detaljeret oversigt over Power Query-editoren på Brugergrænsefladen i Power Query.
Følg disse trin for at anvende transformationer og publicere:
Sørg for, at værktøjerne til dataprofilering er aktiveret ved at gå til
Sørg også for at aktivere diagramvisning ved hjælp af indstillingerne under fanen Vis på båndet i Power Query-editor eller ved at vælge ikonet diagramvisning nederst til højre i Power Query-vinduet.
I tabellen Orders beregner du det samlede antal ordrer pr. kunde. For at nå dette mål skal du vælge kolonnen Kunde-id i dataeksemplet og derefter vælge Gruppér efter under fanen Transformér på båndet.
Du udfører en optælling af rækker som sammenlægningen i Gruppér efter. Du kan få mere at vide om Gruppér efter-funktioner under Gruppering eller opsummering af rækker.
Efter gruppering af data i tabellen Orders henter vi en tabel med to kolonner med CustomerID og Count som kolonnerne.
Derefter skal du kombinere data fra tabellen Kunder med Antal ordrer pr. kunde. Hvis du vil kombinere data, skal du vælge forespørgslen Kunder i diagramvisningen og bruge menuen "⋮" til at få adgang til Flet forespørgsler som ny transformation.
Konfigurer handlingen Flet som vist på følgende skærmbillede ved at vælge Kunde-id som den tilsvarende kolonne i begge tabeller. Vælg derefter OK.
Skærmbillede af vinduet Flet, hvor venstre tabel til fletning er angivet til tabellen Kunder, og tabellen Højre til fletning er angivet til tabellen Orders. Kolonnen CustomerID vælges for tabellerne Customers og Orders. Join-typen er også indstillet til Venstre ydre. Alle andre markeringer er angivet til standardværdien.
Når du udfører fletforespørgslerne som en ny handling, får du en ny forespørgsel med alle kolonner fra tabellen Kunder og én kolonne med indlejrede data fra tabellen Orders.
I dette eksempel er du kun interesseret i et undersæt af kolonner i tabellen Kunder. Du vælger disse kolonner ved hjælp af skemavisningen. Aktivér skemavisningen i til/fra-knappen i nederste højre hjørne af datafloweditoren.
Skemavisningen giver en fokuseret visning i en tabels skemaoplysninger, herunder kolonnenavne og datatyper. Skemavisning har et sæt skemaværktøjer tilgængelige via en kontekstafhængig båndfane. I dette scenarie skal du vælge kolonnerne CustomerID, CompanyName og Orders (2), derefter vælge knappen Fjern kolonner og derefter vælge Fjern andre kolonner under fanen Skemaværktøjer.
Kolonnen Orders (2) indeholder indlejrede oplysninger, der stammer fra den flettehandling, du udførte for et par trin siden. Skift nu tilbage til datavisningen ved at vælge knappen Vis datavisning ud for knappen Vis skemavisning i nederste højre hjørne af brugergrænsefladen. Brug derefter transformationen Udvid kolonne i kolonneoverskriften Orders (2) til at vælge kolonnen Count .
Som den sidste handling vil du rangere dine kunder på baggrund af deres antal ordrer. Vælg kolonnen Antal , og vælg derefter knappen Rangeringskolonne under fanen Tilføj kolonne på båndet.
Bevar standardindstillingerne i Rangeringskolonne. Vælg derefter OK for at anvende denne transformation.
Omdøb nu den resulterende forespørgsel til Rangerede kunder ved hjælp af ruden Forespørgselsindstillinger i højre side af skærmen.
Nu, hvor du er færdig med at transformere og kombinere dine data, kan du konfigurere indstillingerne for outputdestinationen. Vælg Vælg datadestination nederst i ruden Forespørgselsindstillinger .
I dette trin kan du konfigurere et output til dit lakehouse, hvis du har et tilgængeligt, eller springe dette trin over, hvis du ikke gør det. I denne oplevelse kan du konfigurere destinationssøhuset og -tabellen for dine forespørgselsresultater ud over opdateringsmetoden (Tilføj eller Erstat).
Dit dataflow er nu klar til at blive publiceret. Gennemse forespørgslerne i diagramvisningen, og vælg derefter Publicer.
Du er nu vendt tilbage til arbejdsområdet. Et spinnerikon ud for navnet på dit dataflow angiver, at publiceringen er i gang. Når publiceringen er fuldført, er dit dataflow klar til opdatering!
Vigtigt
Når det første Dataflow Gen2 oprettes i et arbejdsområde, klargøres Lakehouse- og Warehouse-elementer sammen med deres relaterede SQL Analytics-slutpunkt og semantiske modeller. Disse elementer deles af alle dataflow i arbejdsområdet og er påkrævet, for at Dataflow Gen2 kan fungere, bør ikke slettes og er ikke beregnet til at blive brugt direkte af brugerne. Elementerne er en implementeringsdetaljer for Dataflow Gen2. Elementerne er ikke synlige i arbejdsområdet, men kan være tilgængelige i andre oplevelser, f.eks. Notebook, SQL Analytics-slutpunktet, Lakehouse og Warehouse. Du kan genkende elementerne med deres præfiks i navnet. Præfikset for elementerne er 'DataflowStaging'.
Vælg ikonet Planlæg opdatering i dit arbejdsområde.
Slå den planlagte opdatering til, vælg Tilføj et andet tidspunkt, og konfigurer opdateringen som vist på følgende skærmbillede.
Skærmbillede af indstillingerne for planlagt opdatering, hvor planlagt opdatering er slået til, opdateringshyppigheden angivet til Dagligt, tidszonen er angivet til koordineret universel tid, og klokkeslættet er angivet til 4:00. Knappen Til, Tilføj en anden tidsvalg, ejeren af dataflowet og knappen Anvend fremhæves alle.
Fjerne ressourcer
Hvis du ikke vil fortsætte med at bruge dette dataflow, skal du slette dataflowet ved hjælp af følgende trin:
Gå til dit Microsoft Fabric-arbejdsområde.
Vælg den lodrette ellipse ud for navnet på dit dataflow, og vælg derefter Slet.
Vælg Slet for at bekræfte sletningen af dit dataflow.
Relateret indhold
Dataflowet i dette eksempel viser, hvordan du indlæser og transformerer data i Dataflow Gen2. Du har lært, hvordan du:
- Opret en Dataflow Gen2.
- Transformér data.
- Konfigurer destinationsindstillinger for transformerede data.
- Kør og planlæg din datapipeline.
Gå videre til næste artikel for at få mere at vide om, hvordan du opretter din første datapipeline.