Del via


Modul 2: Transformér data med et dataflow i Data Factory

Dette modul tager ca. 25 minutter at oprette et dataflow, anvende transformationer og flytte rådata fra tabellen Bronze til en Gold Lakehouse-tabel.

Med de rå data, der indlæses i din Bronze Lakehouse-tabel fra det sidste modul, kan du nu forberede disse data og forbedre dem ved at kombinere dem med en anden tabel, der indeholder rabatter for hver leverandør og deres rejser i løbet af en bestemt dag. Denne endelige Gold Lakehouse-tabel er indlæst og klar til forbrug.

Trinnene på højt niveau i dataflowet er som følger:

  • Hent rådata fra tabellen Lakehouse, der er oprettet af kopiaktiviteten i Modul 1: Opret en pipeline med Data Factory.
  • Transformér de data, der er importeret fra tabellen Lakehouse.
  • Opret forbindelse til en CSV-fil, der indeholder rabatdata.
  • Transformér rabatdataene.
  • Kombiner data om rejser og rabatter.
  • Indlæs outputforespørgslen i tabellen Gold Lakehouse.

Hent data fra en Lakehouse-tabel

  1. Vælg dit arbejdsområde på margenteksten, vælg Nyt element, og derefter Dataflow Gen2 for at oprette en ny Dataflow Gen2. Skærmbillede, der viser siden Opret stof med knappen Dataflow Gen2 fremhævet.

  2. I menuen for det nye dataflow skal du vælge Hent dataog derefter Flere....

    Skærmbillede, der viser menuen Dataflow med knappen Hent data fremhævet og Mere... fremhævet i menuen.

  3. Søg efter og vælg connectoren Lakehouse.

    Skærmbillede, der viser valget af datakilden Lakehouse i menuen Vælg datakilde.

  4. Dialogboksen Opret forbindelse til datakilde vises, og der oprettes automatisk en ny forbindelse for dig baseret på den bruger, der i øjeblikket er logget på. Vælg Næste.

    Skærmbillede, der viser konfigurationen af indstillingerne for datakilden for dit nye Lakehouse med din aktuelle bruger, der er logget på, og knappen Næste valgt.

  5. Dialogboksen Vælg data vises. Brug navigationsruden til at finde det Lakehouse, du oprettede for destinationen i det foregående modul, og vælg datatabellen Tutorial_Lakehouse.

    Skærmbillede, der viser Lakehouse-browseren med arbejdsområdet, lakehouse og tabellen, der er oprettet med aktiviteten Kopiér i modul 1.

  6. (valgfrit) Når lærredet er udfyldt med dataene, kan du angive kolonneprofil oplysninger, da dette er nyttigt til dataprofilering. Du kan anvende den rigtige transformation og målrette de rigtige dataværdier baseret på den.

    Det gør du ved at vælge Indstillinger i båndruden, derefter vælge de første tre indstillinger under Kolonneprofilog derefter vælge OK.

    Skærmbillede, der viser valg af kolonneindstillinger for dine data.

Transformér de data, der er importeret fra Lakehouse

  1. Vælg datatypeikonet i kolonneoverskriften for den anden kolonne IpepPickupDatetimefor at få vist en rullemenu og vælge datatypen i menuen for at konvertere kolonnen fra den Dato/klokkeslæt- til dato- type. Skærmbillede, der viser valget af datatypen Dato for kolonnen IpepPickupDatetime.

  2. (valgfrit) På fanen Hjem på båndet skal du vælge indstillingen Vælg kolonner i gruppen Administrer kolonner.

    Skærmbillede, der viser knappen Vælg kolonner under fanen Hjem i datafloweditoren.

  3. (valgfrit) Fravælg nogle af de kolonner, der er angivet her, i dialogboksen Vælg kolonner , og vælg derefter OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Skærmbillede, der viser dialogboksen Vælg kolonner, hvor de identificerede kolonner er fravalgt.

  4. Vælg den storeAndFwdFlag kolonnes rullemenu til filtrering og sortering. Hvis du får vist en advarsel Listen kan være ufuldstændig, skal du vælge Indlæs flere for at se alle dataene.

    Skærmbillede, der viser dialogboksen Filtrer og sortér for kolonnen.

  5. Vælg 'Y' for kun at få vist rækker, hvor der blev anvendt en rabat, og vælg derefter OK.

    Skærmbillede, der viser værdifilteret, hvor 'Y' kun er valgt.

  6. Vælg rullemenuen IpepPickupDatetime rullemenu til sortering og filtrering af kolonner, og vælg derefter Datofiltre, og vælg Mellem... filter, der er angivet for dato- og dato-/klokkeslætstyper.

    Skærmbillede, der viser valget af indstillingen Datofiltre på rullelisten Kolonnesortering og -format.

  7. I dialogboksen filterrækker skal du vælge datoer mellem den 1. januar 2015 og den 31. januar 2015 og derefter vælge OK.

    Skærmbillede, der viser valget af datoerne i januar 2015.

Opret forbindelse til en CSV-fil, der indeholder rabatdata

Nu, hvor dataene fra rejserne er på plads, vil vi indlæse de data, der indeholder de respektive rabatter for hver dag og VendorID, og forberede dataene, før vi kombinerer dem med turdataene.

  1. Vælg indstillingen Hent data under fanen Hjem i menuen til redigering af dataflow, og vælg derefter Tekst/CSV-.

    Skærmbillede, der viser valget af menuen Hent data under fanen Hjem med Tekst/CSV fremhævet.

  2. I dialogboksen Opret forbindelse til datakilde skal du angive følgende oplysninger:

    • Filsti eller URL-adresse - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • godkendelsestype – anonym

    Vælg derefter Næste.

    Skærmbillede, der viser tekst-/CSV-indstillingerne for forbindelsen.

  3. Vælg Opreti dialogboksen eksempelfildata .

    Skærmbillede, der viser dialogboksen Eksempel på fildata med knappen Opret fremhævet.

Transformér rabatdataene

  1. Hvis du gennemser dataene, ser det ud til, at overskrifterne er i den første række. Hæv dem til overskrifter ved at vælge tabellens genvejsmenu øverst til venstre i eksempelgitterområdet for at vælge Brug den første række som overskrifter.

    Skærmbillede, der viser valget af indstillingen Brug den første række som overskrifter i tabellens genvejsmenu.

    Seddel

    Når du har fremhævet overskrifterne, kan du se et nyt trin, der er føjet til Anvendte trin, rude øverst i datafloweditoren til datatyperne i dine kolonner.

  2. Højreklik på kolonnen VendorID, og vælg indstillingen Ophæv andre kolonneri den viste genvejsmenu. Det giver dig mulighed for at transformere kolonner til attributværdipar, hvor kolonner bliver til rækker.

    Skærmbillede, der viser genvejsmenuen for kolonnen VendorID med markeringen Unpivot other columns fremhævet.

  3. Når tabellen ikke er åbnet, kan du omdøbe kolonnerne Attribut og Value ved at dobbeltklikke på dem og ændre attribut til Dato og Værdi til at Discount.

    Skærmbillede, der viser tabelkolonnerne efter omdøbning af Attribut til Dato og Værdi til Rabat.

  4. Rediger datatypen for kolonnen Date ved at vælge menuen datatype til venstre for kolonnenavnet og vælge Dato.

    Skærmbillede, der viser valget af datatypen Dato for kolonnen Dato.

  5. Vælg kolonnen Discount, og vælg derefter fanen Transformér i menuen. Vælg kolonnen Tal, og vælg derefter Numeriske standardtransformationer i undermenuen, og vælg Divide.

    Skærmbillede, der viser valget af indstillingen Opdel for at transformere data i kolonnen Discount.

  6. I dialogboksen Divide skal du angive værdien 100.

    Skærmbillede, der viser dialogboksen Del med værdien 100 angivet, og knappen OK fremhævet.

Kombiner data om rejser og rabatter

Det næste trin er at kombinere begge tabeller i en enkelt tabel, der har den rabat, der skal anvendes på turen, og den justerede total.

  1. Først skal du skifte diagramvisning knap, så du kan se begge dine forespørgsler.

    Skærmbillede, der viser knappen Til/fra-knappen Diagramvisning, hvor begge forespørgsler, der er oprettet i dette selvstudium, vises.

  2. Vælg forespørgslen nyc_taxi, og vælg Flet forespørgslerunder fanen Hjem, og vælg menuen Kombiner , og vælg Flet forespørgsler, og derefter Flet forespørgsler som nye.

    Skærmbillede, der viser Flet forespørgsler som nyt valg for den nyc_taxi forespørgsel.

  3. I dialogboksen Flet skal du vælge Generated-NYC-Taxi-Green-Discounts i tabellen Højre for at flette rulleliste og derefter vælge ikonet "elpære" øverst til højre i dialogboksen for at se den foreslåede tilknytning af kolonner mellem de to tabeller.

    Skærmbillede, der viser konfigurationen af dialogboksen Flet med foreslåede kolonnetilknytninger vist.

    Vælg hver af de to foreslåede kolonnetilknytninger, én ad gangen, der tilknytter kolonnerne VendorID og dato fra begge tabeller. Når begge tilknytninger tilføjes, fremhæves de tilsvarende kolonneoverskrifter i hver tabel.

  4. Der vises en meddelelse, hvor du bliver bedt om at tillade, at du kombinerer data fra flere datakilder for at få vist resultaterne. Vælg OK i dialogboksen Flet.

    Skærmbillede, der viser anmodningen om at godkende kombination af data fra flere datakilder, hvor knappen OK er fremhævet.

  5. I tabelområdet får du indledningsvist vist en advarsel om, at "Evalueringen blev annulleret, fordi en kombination af data fra flere kilder kan vise data fra én kilde til en anden. Vælg Fortsæt, hvis muligheden for at vise data er okay." Vælg Fortsæt for at få vist de kombinerede data.

    Skærmbillede, der viser advarslen om at kombinere data fra flere datakilder med knappen Fortsæt fremhævet.

  6. Bemærk, hvordan en ny forespørgsel blev oprettet i diagramvisning, der viser relationen mellem den nye fletforespørgsel og de to forespørgsler, du tidligere har oprettet. Når du ser på tabelruden i editoren, skal du rulle til højre for listen Flet forespørgselskolonne for at se en ny kolonne med tabelværdier. Dette er kolonnen "Generated NYC Taxi-Green-Discounts", og typen er [Table]. I kolonneoverskriften er der et ikon med to pile, der går i modsatte retninger, så du kan vælge kolonner fra tabellen. Fjern markeringen af alle kolonner undtagen Discount, og vælg derefter OK.

    Skærmbillede, der viser den flettede forespørgsel med den menu til valg af kolonne, der vises for den nyoprettede kolonne Generated-NYC-Taxi-Green-Discounts.

  7. Når rabatværdien nu er på rækkeniveau, kan vi oprette en ny kolonne for at beregne det samlede beløb efter rabatten. Det gør du ved at vælge fanen Tilføj kolonne øverst i editoren og vælge brugerdefineret kolonne i gruppen Generelt.

    Skærmbillede, der viser knappen Tilføj brugerdefineret kolonne fremhævet i sektionen Generelt under fanen Tilføj kolonne.

  8. I dialogboksen Brugerdefineret kolonne kan du bruge Power Query-formelsproget (også kaldet M) til at definere, hvordan den nye kolonne skal beregnes. Angiv TotalAfterDiscount- for Nyt kolonnenavn, vælg Valuta for Datatype, og angiv følgende M-udtryk for formlen for brugerdefineret kolonne:

    hvis [totalAmount] > 0, så [totalAmount] * ( 1 -[Discount] ) ellers [totalAmount]

    Vælg derefter OK.

    Skærmbillede, der viser skærmbilledet Brugerdefineret kolonnekonfiguration med nyt kolonnenavn, Datatype og Brugerdefineret kolonneformel fremhævet.

  9. Vælg den nyoprettede TotalAfterDiscount kolonne, og vælg derefter fanen Transformér øverst i editorvinduet. Vælg rullelisten Afrunding i gruppen Number, og vælg derefter Afrund....

    Skærmbillede, der viser Afrund... under fanen Transformér i editorvinduet.

  10. Angiv 2 for antallet af decimaler i dialogboksen Afrund i, og vælg derefter OK.

    Skærmbillede, der viser dialogboksen Afrund med 2 for antallet af decimaler og knappen OK fremhævet.

  11. Skift datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslæt.

    Skærmbillede, der viser valget af datatypen Dato/klokkeslæt for kolonnen IpepPickupDatetime.

  12. Udvid til sidst de forespørgselsindstillinger ruden fra højre side af editoren, hvis den ikke allerede er udvidet, og omdøb forespørgslen fra Flet til Output.

    Skærmbillede, der viser omdøbningen af forespørgslen fra Flet til Output.

Indlæs outputforespørgslen i en tabel i Lakehouse

Når outputforespørgslen nu er fuldt forberedt og med data klar til output, kan vi definere outputdestinationen for forespørgslen.

  1. Vælg den Output fletteforespørgsel, der er oprettet tidligere. Vælg derefter fanen Start i editoren, og Tilføj datadestination i gruppering af -forespørgsel for at vælge en Lakehouse destination.

    Skærmbillede, der viser knappen Tilføj datadestination med Lakehouse fremhævet.

  2. I dialogboksen Opret forbindelse til datadestination skal forbindelsen allerede være valgt. Vælg Næste for at fortsætte.

  3. I dialogboksen Vælg destinationsmål skal du gå til det Lakehouse, hvor du vil indlæse dataene, og navngive den nye tabel nyc_taxi_with_discountsog derefter vælge Næste igen.

    Skærmbillede, der viser dialogboksen Vælg destinationsmål med Tabelnavn nyc_taxi_with_discounts.

  4. I dialogboksen Vælg destinationsindstillinger skal du lade standardindstillingen Erstat opdateringsmetode være. Dobbelttjek, at kolonnerne er tilknyttet korrekt, og vælg Gem indstillinger.

    Skærmbillede, der viser dialogboksen Vælg destinationsindstillinger med knappen Gem indstillinger fremhævet.

  5. Tilbage i hovededitorvinduet skal du bekræfte, at du kan se outputdestinationen i ruden Forespørgselsindstillinger for tabellen Output og derefter vælge Publicer.

    Vigtig

    Når det første Dataflow Gen2 oprettes i et arbejdsområde, klargøres Lakehouse- og Warehouse-elementer sammen med deres relaterede SQL Analytics-slutpunkt og semantiske modeller. Disse elementer deles af alle dataflow i arbejdsområdet og er påkrævet, for at Dataflow Gen2 kan fungere, bør ikke slettes og er ikke beregnet til at blive brugt direkte af brugerne. Elementerne er en implementeringsdetaljer for Dataflow Gen2. Elementerne er ikke synlige i arbejdsområdet, men kan være tilgængelige i andre oplevelser, f.eks. Notebook, SQL-endpoint, Lakehouse og Warehouse. Du kan genkende elementerne med deres præfiks i navnet. Præfikset for elementerne er 'DataflowStaging'.

  6. (valgfrit) På arbejdsområdesiden kan du omdøbe dit dataflow ved at vælge ellipsen til højre for det dataflownavn, der vises, når du har valgt rækken, og vælge Egenskaber.

    Skærmbillede, der viser indstillingen Egenskaber valgt i menuen for et dataflow, hvor det kan omdøbes.

  7. Vælg opdateringsikonet for dataflowet, når du har valgt dets række, og når du er færdig, kan du se den nye Lakehouse-tabel, der er oprettet som konfigureret i indstillingerne for Datadestination.

    Skærmbillede, der viser valget af knappen Opdater for at opdatere dataflowet.

  8. Tjek din Lakehouse for at se den nye tabel indlæst der.

I dette andet modul til vores komplette selvstudium om din første dataintegration ved hjælp af Data Factory i Microsoft Fabric har du lært, hvordan du:

  • Opret et nyt Dataflow Gen2.
  • Importér og transformér eksempeldata.
  • Importér og transformér tekst/CSV-data.
  • Flet data fra begge datakilder til en ny forespørgsel.
  • Transformér data, og opret nye kolonner i en forespørgsel.
  • Konfigurer en outputdestinationskilde for en forespørgsel.
  • Omdøb og opdater dit nye dataflow.

Fortsæt til næste afsnit nu for at integrere din datapipeline.