Modul 2: Transformér data med et dataflow i Data Factory
Dette modul tager ca. 25 minutter at oprette et dataflow, anvende transformationer og flytte rådata fra tabellen Bronze til en Gold Lakehouse-tabel.
Med de rå data, der indlæses i din Bronze Lakehouse-tabel fra det sidste modul, kan du nu forberede disse data og forbedre dem ved at kombinere dem med en anden tabel, der indeholder rabatter for hver leverandør og deres rejser i løbet af en bestemt dag. Denne endelige Gold Lakehouse-tabel er indlæst og klar til forbrug.
Trinnene på højt niveau i dataflowet er som følger:
- Hent rådata fra tabellen Lakehouse, der er oprettet af kopiaktiviteten i Modul 1: Opret en pipeline med Data Factory.
- Transformér de data, der er importeret fra tabellen Lakehouse.
- Opret forbindelse til en CSV-fil, der indeholder rabatdata.
- Transformér rabatdataene.
- Kombiner data om rejser og rabatter.
- Indlæs outputforespørgslen i tabellen Gold Lakehouse.
Hent data fra en Lakehouse-tabel
Vælg dit arbejdsområde på margenteksten, vælg Nyt element, og derefter Dataflow Gen2 for at oprette en ny Dataflow Gen2.
I menuen for det nye dataflow skal du vælge Hent dataog derefter Flere....
Søg efter og vælg connectoren Lakehouse.
Dialogboksen Opret forbindelse til datakilde vises, og der oprettes automatisk en ny forbindelse for dig baseret på den bruger, der i øjeblikket er logget på. Vælg Næste.
Dialogboksen Vælg data vises. Brug navigationsruden til at finde det Lakehouse, du oprettede for destinationen i det foregående modul, og vælg datatabellen Tutorial_Lakehouse.
(valgfrit) Når lærredet er udfyldt med dataene, kan du angive kolonneprofil oplysninger, da dette er nyttigt til dataprofilering. Du kan anvende den rigtige transformation og målrette de rigtige dataværdier baseret på den.
Det gør du ved at vælge Indstillinger i båndruden, derefter vælge de første tre indstillinger under Kolonneprofilog derefter vælge OK.
Transformér de data, der er importeret fra Lakehouse
Vælg datatypeikonet i kolonneoverskriften for den anden kolonne IpepPickupDatetimefor at få vist en rullemenu og vælge datatypen i menuen for at konvertere kolonnen fra den Dato/klokkeslæt- til dato- type.
(valgfrit) På fanen Hjem på båndet skal du vælge indstillingen Vælg kolonner i gruppen Administrer kolonner.
(valgfrit) Fravælg nogle af de kolonner, der er angivet her, i dialogboksen Vælg kolonner, og vælg derefter OK .- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Vælg den storeAndFwdFlag kolonnes rullemenu til filtrering og sortering. Hvis du får vist en advarsel Listen kan være ufuldstændig, skal du vælge Indlæs flere for at se alle dataene.
Vælg 'Y' for kun at få vist rækker, hvor der blev anvendt en rabat, og vælg derefter OK.
Vælg rullemenuen IpepPickupDatetime rullemenu til sortering og filtrering af kolonner, og vælg derefter Datofiltre, og vælg Mellem... filter, der er angivet for dato- og dato-/klokkeslætstyper.
I dialogboksen filterrækker skal du vælge datoer mellem den 1. januar 2015 og den 31. januar 2015 og derefter vælge OK.
Opret forbindelse til en CSV-fil, der indeholder rabatdata
Nu, hvor dataene fra rejserne er på plads, vil vi indlæse de data, der indeholder de respektive rabatter for hver dag og VendorID, og forberede dataene, før vi kombinerer dem med turdataene.
Vælg indstillingen Hent data under fanen Hjem i menuen til redigering af dataflow, og vælg derefter Tekst/CSV-.
I dialogboksen Opret forbindelse til datakilde skal du angive følgende oplysninger:
-
Filsti eller URL-adresse -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- godkendelsestype – anonym
Vælg derefter Næste.
-
Filsti eller URL-adresse -
Vælg Opreti dialogboksen eksempelfildata .
Transformér rabatdataene
Hvis du gennemser dataene, ser det ud til, at overskrifterne er i den første række. Hæv dem til overskrifter ved at vælge tabellens genvejsmenu øverst til venstre i eksempelgitterområdet for at vælge Brug den første række som overskrifter.
Seddel
Når du har fremhævet overskrifterne, kan du se et nyt trin, der er føjet til Anvendte trin, rude øverst i datafloweditoren til datatyperne i dine kolonner.
Højreklik på kolonnen VendorID, og vælg indstillingen Ophæv andre kolonneri den viste genvejsmenu. Det giver dig mulighed for at transformere kolonner til attributværdipar, hvor kolonner bliver til rækker.
Når tabellen ikke er åbnet, kan du omdøbe kolonnerne
Attribut og Value ved at dobbeltklikke på dem og ændreattribut tilDato ogVærdi til atDiscount .Rediger datatypen for kolonnen Date ved at vælge menuen datatype til venstre for kolonnenavnet og vælge Dato.
Vælg kolonnen Discount, og vælg derefter fanen Transformér i menuen. Vælg kolonnen Tal, og vælg derefter Numeriske standardtransformationer i undermenuen, og vælg Divide.
I dialogboksen Divide skal du angive værdien 100.
Kombiner data om rejser og rabatter
Det næste trin er at kombinere begge tabeller i en enkelt tabel, der har den rabat, der skal anvendes på turen, og den justerede total.
Først skal du skifte diagramvisning knap, så du kan se begge dine forespørgsler.
Vælg forespørgslen
nyc_taxi ,og vælg , og vælg menuen KombinerFlet forespørgsler under fanen Hjem, og vælg Flet forespørgsler , ogderefter Flet forespørgsler som nye .I dialogboksen Flet skal du vælge Generated-NYC-Taxi-Green-Discounts i tabellen Højre for at flette rulleliste og derefter vælge ikonet "elpære" øverst til højre i dialogboksen for at se den foreslåede tilknytning af kolonner mellem de to tabeller.
Vælg hver af de to foreslåede kolonnetilknytninger, én ad gangen, der tilknytter kolonnerne VendorID og dato fra begge tabeller. Når begge tilknytninger tilføjes, fremhæves de tilsvarende kolonneoverskrifter i hver tabel.
Der vises en meddelelse, hvor du bliver bedt om at tillade, at du kombinerer data fra flere datakilder for at få vist resultaterne. Vælg OK i dialogboksen Flet.
I tabelområdet får du indledningsvist vist en advarsel om, at "Evalueringen blev annulleret, fordi en kombination af data fra flere kilder kan vise data fra én kilde til en anden. Vælg Fortsæt, hvis muligheden for at vise data er okay." Vælg Fortsæt for at få vist de kombinerede data.
Bemærk, hvordan en ny forespørgsel blev oprettet i diagramvisning, der viser relationen mellem den nye fletforespørgsel og de to forespørgsler, du tidligere har oprettet. Når du ser på tabelruden i editoren, skal du rulle til højre for listen Flet forespørgselskolonne for at se en ny kolonne med tabelværdier. Dette er kolonnen "Generated NYC Taxi-Green-Discounts", og typen er [Table]. I kolonneoverskriften er der et ikon med to pile, der går i modsatte retninger, så du kan vælge kolonner fra tabellen. Fjern markeringen af alle kolonner undtagen Discount, og vælg derefter OK.
Når rabatværdien nu er på rækkeniveau, kan vi oprette en ny kolonne for at beregne det samlede beløb efter rabatten. Det gør du ved at vælge fanen Tilføj kolonne øverst i editoren og vælge brugerdefineret kolonne i gruppen Generelt.
I dialogboksen Brugerdefineret kolonne kan du bruge Power Query-formelsproget (også kaldet M) til at definere, hvordan den nye kolonne skal beregnes. Angiv TotalAfterDiscount- for Nyt kolonnenavn, vælg Valuta for Datatype, og angiv følgende M-udtryk for formlen for brugerdefineret kolonne:
hvis [totalAmount] > 0, så [totalAmount] * ( 1 -[Discount] ) ellers [totalAmount]
Vælg derefter OK.
Vælg den nyoprettede TotalAfterDiscount kolonne, og vælg derefter fanen Transformér øverst i editorvinduet. Vælg rullelisten Afrunding i gruppen Number, og vælg derefter Afrund....
Angiv 2 for antallet af decimaler i dialogboksen Afrund i, og vælg derefter OK.
Skift datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslæt.
Udvid til sidst de forespørgselsindstillinger ruden fra højre side af editoren, hvis den ikke allerede er udvidet, og omdøb forespørgslen fra Flet til Output.
Indlæs outputforespørgslen i en tabel i Lakehouse
Når outputforespørgslen nu er fuldt forberedt og med data klar til output, kan vi definere outputdestinationen for forespørgslen.
Vælg den Output fletteforespørgsel, der er oprettet tidligere. Vælg derefter fanen Start i editoren, og Tilføj datadestination i gruppering af -forespørgsel for at vælge en Lakehouse destination.
I dialogboksen Opret forbindelse til datadestination skal forbindelsen allerede være valgt. Vælg Næste for at fortsætte.
I dialogboksen Vælg destinationsmål skal du gå til det Lakehouse, hvor du vil indlæse dataene, og navngive den nye tabel nyc_taxi_with_discountsog derefter vælge Næste igen.
I dialogboksen Vælg destinationsindstillinger skal du lade standardindstillingen Erstat opdateringsmetode være. Dobbelttjek, at kolonnerne er tilknyttet korrekt, og vælg Gem indstillinger.
Tilbage i hovededitorvinduet skal du bekræfte, at du kan se outputdestinationen i ruden Forespørgselsindstillinger for tabellen Output og derefter vælge Publicer.
Vigtig
Når det første Dataflow Gen2 oprettes i et arbejdsområde, klargøres Lakehouse- og Warehouse-elementer sammen med deres relaterede SQL Analytics-slutpunkt og semantiske modeller. Disse elementer deles af alle dataflow i arbejdsområdet og er påkrævet, for at Dataflow Gen2 kan fungere, bør ikke slettes og er ikke beregnet til at blive brugt direkte af brugerne. Elementerne er en implementeringsdetaljer for Dataflow Gen2. Elementerne er ikke synlige i arbejdsområdet, men kan være tilgængelige i andre oplevelser, f.eks. Notebook, SQL-endpoint, Lakehouse og Warehouse. Du kan genkende elementerne med deres præfiks i navnet. Præfikset for elementerne er 'DataflowStaging'.
(valgfrit) På arbejdsområdesiden kan du omdøbe dit dataflow ved at vælge ellipsen til højre for det dataflownavn, der vises, når du har valgt rækken, og vælge Egenskaber.
Vælg opdateringsikonet for dataflowet, når du har valgt dets række, og når du er færdig, kan du se den nye Lakehouse-tabel, der er oprettet som konfigureret i indstillingerne for Datadestination.
Tjek din Lakehouse for at se den nye tabel indlæst der.
Relateret indhold
I dette andet modul til vores komplette selvstudium om din første dataintegration ved hjælp af Data Factory i Microsoft Fabric har du lært, hvordan du:
- Opret et nyt Dataflow Gen2.
- Importér og transformér eksempeldata.
- Importér og transformér tekst/CSV-data.
- Flet data fra begge datakilder til en ny forespørgsel.
- Transformér data, og opret nye kolonner i en forespørgsel.
- Konfigurer en outputdestinationskilde for en forespørgsel.
- Omdøb og opdater dit nye dataflow.
Fortsæt til næste afsnit nu for at integrere din datapipeline.