Modul 2: Transformere data med en dataflyt i Data Factory
Denne modulen tar omtrent 25 minutter å opprette en dataflyt, bruke transformasjoner og flytte rådataene fra bronsetabellen til en Gold Lakehouse-tabell.
Med rådataene som er lastet inn i Bronze Lakehouse-tabellen fra den siste modulen, kan du nå klargjøre dataene og berike dem ved å kombinere dem med en annen tabell som inneholder rabatter for hver leverandør og deres turer i løpet av en bestemt dag. Dette siste Gold Lakehouse-bordet er lastet og klart til bruk.
Trinnene på høyt nivå i dataflyten er som følger:
- Hent rådata fra Lakehouse-tabellen som er opprettet av Kopier-aktiviteten i modul 1: Opprett et datasamlebånd med Data Factory.
- Transformer dataene som er importert fra Lakehouse-tabellen.
- Koble til en CSV-fil som inneholder rabattdata.
- Transformer rabattdataene.
- Kombiner reise- og rabattdata.
- Last inn utdataspørringen i Gold Lakehouse-tabellen.
Hent data fra en Lakehouse-tabell
Velg arbeidsområdet fra sidepanelet, velg Nytt element, og deretter Dataflyt gen2 for å opprette en ny dataflyt gen2.
Velg Hent datafra den nye dataflytmenyen, og deretter mer....
Søk etter og velg Lakehouse-koblingen.
Dialogboksen Koble til datakilde vises, og en ny tilkobling opprettes automatisk for deg basert på den påloggede brukeren. Velg Neste.
Dialogboksen Velg data vises. Bruk navigasjonsruten til å finne Lakehouse du opprettet for målet i den forrige modulen, og velg Tutorial_Lakehouse datatabell.
(valgfritt) Når lerretet er fylt ut med dataene, kan du angi kolonneprofil informasjon, da dette er nyttig for dataprofilering. Du kan bruke riktig transformasjon og målrette mot de riktige dataverdiene basert på den.
Hvis du vil gjøre dette, velger du Alternativer fra båndruten, velger deretter de tre første alternativene under Kolonneprofil, og deretter velger du OK.
Transformere dataene som er importert fra Lakehouse
Velg datatypeikonet i kolonneoverskriften for den andre kolonnen, IpepPickupDatetime, for å vise en rullegardinmeny og velge datatypen fra menyen for å konvertere kolonnen fra Dato/klokkeslett- til dato type.
(valgfritt) På Hjem-fanen på båndet velger du alternativet Velg kolonner fra Behandle kolonner-gruppen.
(valgfritt) Fjern merket for noen kolonner som er oppført her, i dialogboksen Velg kolonner, og velg deretter OK.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Velg storeAndFwdFlag kolonnefilter og rullegardinmeny for sortering. (Hvis du ser en advarsel listen kan være ufullstendig, velger du Last inn flere for å se alle dataene.)
Velg Y for å vise bare rader der en rabatt ble brukt, og velg deretter OK.
Velg IpepPickupDatetime kolonnesorter og filtrer rullegardinmeny, velg deretter Datofiltre, og velg Between... filteret som er angitt for dato- og dato/klokkesletttyper.
Velg datoer mellom 1. januar 2015 og 31. januar 2015 i dialogboksen Filtrer rader, og velg deretter OK.
Koble til en CSV-fil som inneholder rabattdata
Nå, med dataene fra turene på plass, ønsker vi å laste inn dataene som inneholder de respektive rabattene for hver dag og VendorID, og klargjøre dataene før vi kombinerer dem med reisedataene.
Velg alternativet Hent data på fanen Hjem i redigeringsprogrammet for dataflyt, og velg deretter Tekst/CSV-.
Angi følgende detaljer i dialogboksen Koble til datakilde:
-
Filbane eller URL-adresse -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- godkjenningstype – anonym
Velg deretter Neste.
-
Filbane eller URL-adresse -
Velg Oppretti dialogboksen Forhåndsvis fildata .
Transformere rabattdataene
Når vi ser gjennom dataene, ser vi at overskriftene ser ut til å være i den første raden. Hev dem til overskrifter ved å velge hurtigmenyen for tabellen øverst til venstre i forhåndsvisningsrutenettet for å velge Bruk første rad som overskrifter.
Notat
Når du har forfremmet topptekstene, kan du se et nytt trinn lagt til i Brukte trinn-ruten øverst i redigeringsprogrammet for dataflyt til datatypene i kolonnene.
Høyreklikk kolonnen VendorID, og velg alternativet Opphev aktivering av andre kolonnerfra hurtigmenyen som vises. Dette gjør at du kan transformere kolonner til attributtverdipar, der kolonner blir rader.
Når tabellen ikke er angitt, gir du nytt navn til kolonnene Attributt og Verdi ved å dobbeltklikke dem og endre attributt til dato og verdi for å rabatt.
Endre datatypen for Dato-kolonnen ved å velge datatypemenyen til venstre for kolonnenavnet og velge Dato.
Velg kolonnen Rabatt, og velg deretter fanen Transformer på menyen. Velg tallkolonne, og velg deretter Standard numeriske transformasjoner fra undermenyen, og velg Divider.
Skriv inn verdien 100 i dialogboksen Divider.
Kombinere turer og rabattdata
Det neste trinnet er å kombinere begge tabellene i én enkelt tabell som har rabatten som skal brukes på turen, og den justerte summen.
Først slår du diagramvisning-knappen slik at du kan se begge spørringene.
Velg nyc_taxi spørringen, og velg Slå sammen spørringerpå Hjem-fanen, velg Slå sammen-menyen, og velg deretter Slå sammen spørringer, og Slå sammen spørringer som nye.
I dialogboksen Slå sammen velger du Genererte NYC-Taxi-Green-Discounts- fra høyre tabell for fletting rullegardin, og velg deretter «lyspære»-ikonet øverst til høyre i dialogboksen for å se den foreslåtte tilordningen av kolonner mellom de to tabellene.
Velg hver av de to foreslåtte kolonnetilordningene, én om gangen, som tilordner VendorID- og datokolonnene fra begge tabellene. Når begge tilordningene legges til, utheves de samsvarende kolonneoverskriftene i hver tabell.
En melding vises der du blir bedt om å tillate kombinasjon av data fra flere datakilder for å vise resultatene. Velg OK i dialogboksen Slå sammen.
I tabellområdet ser du i utgangspunktet en advarsel om at evalueringen ble avbrutt fordi kombinasjon av data fra flere kilder kan vise data fra én kilde til en annen. Velg fortsett hvis muligheten for å avsløre data er ok.» Velg Fortsett for å vise de kombinerte dataene.
Legg merke til hvordan en ny spørring ble opprettet i diagramvisning som viser relasjonen mellom den nye flettespørringen med de to spørringene du opprettet tidligere. Når du ser på tabellruten i redigeringsprogrammet, blar du til høyre for kolonnelisten flettingsspørring for å se en ny kolonne med tabellverdier. Dette er kolonnen "Generert NYC Taxi-Green-Discounts", og typen er [Tabell]. I kolonneoverskriften er det et ikon med to piler som går i motsatt retning, slik at du kan velge kolonner fra tabellen. Fjern merkingen for alle kolonnene unntatt Rabatt, og velg deretter OK.
Med rabattverdien nå på radnivå, kan vi opprette en ny kolonne for å beregne totalbeløpet etter rabatt. Hvis du vil gjøre dette, velger du fanen Legg til kolonne øverst i redigeringsprogrammet, og velger Egendefinert kolonne fra gruppen Generelt.
I dialogboksen egendefinert kolonne kan du bruke Power Query-formelspråket (også kalt M) til å definere hvordan den nye kolonnen skal beregnes. Skriv inn TotalAfterDiscount for Nytt kolonnenavn, velg Valuta for Datatype, og angi følgende M-uttrykk for egendefinert kolonneformel:
hvis [totalAmount] > 0, vil [totalAmount] * ( 1 -[Rabatt] ) ellers [totalAmount]
Velg deretter OK.
Velg kolonnen TotalAfterDiscount, og velg deretter fanen Transformer øverst i redigeringsprogrammet. Velg rullegardinlisten
Avrunding itallkolonnen , og velg deretterAvrund... .Skriv inn 2 for antall desimaler i dialogboksen runde, og velg deretter OK.
Endre datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslett.
Til slutt utvider du spørringsinnstillinger ruten fra høyre side av redigeringsprogrammet hvis den ikke allerede er utvidet, og gir nytt navn til spørringen fra Slå sammen for å utdata.
Laste inn utdataspørringen til en tabell i Lakehouse
Med utdataspørringen nå fullstendig forberedt og med data klar til utdata, kan vi definere utdatamålet for spørringen.
Velg utdata flettespørring opprettet tidligere. Velg deretter Hjem-fanen i redigeringsprogrammet, og Legg til datamål fra spørring gruppering, for å velge et Lakehouse-mål.
I dialogboksen Koble til datamål, bør tilkoblingen allerede være valgt. Velg Neste for å fortsette.
I dialogboksen Velg målmål blar du til Lakehouse der du vil laste inn dataene og navngi den nye tabellen nyc_taxi_with_discounts, og velg deretter Neste på nytt.
Gå til dialogboksen Velg målinnstillinger, la standard Erstatt oppdateringsmetode, dobbeltsjekk at kolonnene er tilordnet riktig, og velg Lagre innstillinger.
Tilbake i hovedredigeringsprogrammet bekrefter du at du ser utdatamålet i spørringsinnstillinger for Utdata--tabellen, og deretter velger du Publiser.
Viktig
Når den første dataflyten Gen2 opprettes i et arbeidsområde, klargjøres Lakehouse- og Warehouse-elementer sammen med relaterte SQL Analytics-endepunkt og semantiske modeller. Disse elementene deles av alle dataflyter i arbeidsområdet og kreves for at Dataflyt gen2 skal fungere, bør ikke slettes, og er ikke ment å brukes direkte av brukere. Elementene er en implementeringsdetalj for Dataflyt gen2. Elementene er ikke synlige i arbeidsområdet, men kan være tilgjengelige i andre opplevelser, for eksempel notatblokken, SQL-endepunktet, Lakehouse og Warehouse. Du kan gjenkjenne elementene ved hjelp av prefikset i navnet. Prefikset for elementene er Dataflytsstaging.
(valgfritt) På arbeidsområdesiden kan du gi nytt navn til dataflyten ved å velge ellipsen til høyre for dataflytnavnet som vises etter at du har merket raden, og velge Egenskaper.
Velg oppdateringsikonet for dataflyten når du har valgt raden, og når den er fullført, skal du se den nye Lakehouse-tabellen opprettet som konfigurert i datamål innstillinger.
Sjekk Lakehouse for å se det nye bordet lastet der.
Relatert innhold
I denne andre modulen til vår ende-til-ende-opplæring for din første dataintegrering ved hjelp av Data Factory i Microsoft Fabric, lærte du hvordan du gjør følgende:
- Opprett en ny dataflyt gen2.
- Importere og transformere eksempeldata.
- Importere og transformere tekst-/CSV-data.
- Slå sammen data fra begge datakildene til en ny spørring.
- Transformer data og generer nye kolonner i en spørring.
- Konfigurer en utdatamålkilde for en spørring.
- Gi nytt navn til og oppdater den nye dataflyten.
Fortsett til neste del nå for å integrere datasamlebåndet.