Del via


Modul 2: Transformere data med en dataflyt i Data Factory

Denne modulen tar omtrent 25 minutter å opprette en dataflyt, bruke transformasjoner og flytte rådataene fra bronsetabellen til en Gold Lakehouse-tabell.

Med rådataene som er lastet inn i Bronze Lakehouse-tabellen fra den siste modulen, kan du nå klargjøre dataene og berike dem ved å kombinere dem med en annen tabell som inneholder rabatter for hver leverandør og deres turer i løpet av en bestemt dag. Dette siste Gold Lakehouse-bordet er lastet og klart til bruk.

Trinnene på høyt nivå i dataflyten er som følger:

  • Hent rådata fra Lakehouse-tabellen som er opprettet av Kopier-aktiviteten i modul 1: Opprett et datasamlebånd med Data Factory.
  • Transformer dataene som er importert fra Lakehouse-tabellen.
  • Koble til en CSV-fil som inneholder rabattdata.
  • Transformer rabattdataene.
  • Kombiner reise- og rabattdata.
  • Last inn utdataspørringen i Gold Lakehouse-tabellen.

Hent data fra en Lakehouse-tabell

  1. Velg arbeidsområdet fra sidepanelet, velg Nytt element, og deretter Dataflyt gen2 for å opprette en ny dataflyt gen2. Skjermbilde som viser Fabric Create-siden med Dataflyt gen2-knappen uthevet.

  2. Velg Hent datafra den nye dataflytmenyen, og deretter mer....

    Skjermbilde som viser Dataflyt-menyen med Hent data-knappen uthevet og Mer... uthevet fra menyen.

  3. Søk etter og velg Lakehouse-koblingen.

    Skjermbilde som viser utvalget av Lakehouse-datakilden fra Velg datakilde-menyen.

  4. Dialogboksen Koble til datakilde vises, og en ny tilkobling opprettes automatisk for deg basert på den påloggede brukeren. Velg Neste.

    Skjermbilde som viser konfigurasjonen av datakildeinnstillingene for det nye Lakehouse med gjeldende påloggede bruker, og Neste-knappen er valgt.

  5. Dialogboksen Velg data vises. Bruk navigasjonsruten til å finne Lakehouse du opprettet for målet i den forrige modulen, og velg Tutorial_Lakehouse datatabell.

    Skjermbilde som viser Lakehouse-nettleseren med arbeidsområdet, lakehouse og tabellen opprettet med Kopier-aktiviteten i modul 1.

  6. (valgfritt) Når lerretet er fylt ut med dataene, kan du angi kolonneprofil informasjon, da dette er nyttig for dataprofilering. Du kan bruke riktig transformasjon og målrette mot de riktige dataverdiene basert på den.

    Hvis du vil gjøre dette, velger du Alternativer fra båndruten, velger deretter de tre første alternativene under Kolonneprofil, og deretter velger du OK.

    Skjermbilde som viser valg av kolonnealternativer for dataene.

Transformere dataene som er importert fra Lakehouse

  1. Velg datatypeikonet i kolonneoverskriften for den andre kolonnen, IpepPickupDatetime, for å vise en rullegardinmeny og velge datatypen fra menyen for å konvertere kolonnen fra Dato/klokkeslett- til dato type. Skjermbilde som viser valget av datatypen Dato for IpepPickupDatetime-kolonnen.

  2. (valgfritt)Hjem-fanen på båndet velger du alternativet Velg kolonner fra Behandle kolonner-gruppen.

    Skjermbilde som viser Velg kolonner-knappen på Hjem-fanen i redigeringsprogrammet for dataflyt.

  3. (valgfritt) Fjern merket for noen kolonner som er oppført her, i dialogboksen Velg kolonner, og velg deretter OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Skjermbilde som viser dialogboksen Velg kolonner med de identifiserte kolonnene fjernet.

  4. Velg storeAndFwdFlag kolonnefilter og rullegardinmeny for sortering. (Hvis du ser en advarsel listen kan være ufullstendig, velger du Last inn flere for å se alle dataene.)

    Skjermbilde som viser dialogboksen filter og sortering for kolonnen.

  5. Velg Y for å vise bare rader der en rabatt ble brukt, og velg deretter OK.

    Skjermbilde som viser verdifilteret med bare Y valgt.

  6. Velg IpepPickupDatetime kolonnesorter og filtrer rullegardinmeny, velg deretter Datofiltre, og velg Between... filteret som er angitt for dato- og dato/klokkesletttyper.

    Skjermbilde som viser valget av alternativet Datofiltre i rullegardinlisten for kolonnesortering og -format.

  7. Velg datoer mellom 1. januar 2015 og 31. januar 2015 i dialogboksen Filtrer rader, og velg deretter OK.

    Skjermbilde som viser valget av datoene i januar 2015.

Koble til en CSV-fil som inneholder rabattdata

Nå, med dataene fra turene på plass, ønsker vi å laste inn dataene som inneholder de respektive rabattene for hver dag og VendorID, og klargjøre dataene før vi kombinerer dem med reisedataene.

  1. Velg alternativet Hent data på fanen Hjem i redigeringsprogrammet for dataflyt, og velg deretter Tekst/CSV-.

    Skjermbilde som viser utvalget av Hent data-menyen fra Hjem-fanen, med Tekst/CSV uthevet.

  2. Angi følgende detaljer i dialogboksen Koble til datakilde:

    • Filbane eller URL-adresse - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • godkjenningstype – anonym

    Velg deretter Neste.

    Skjermbilde som viser tekst-/CSV-innstillingene for tilkoblingen.

  3. Velg Oppretti dialogboksen Forhåndsvis fildata .

    Skjermbilde som viser dialogboksen Forhåndsvis fildata med Opprett-knappen uthevet.

Transformere rabattdataene

  1. Når vi ser gjennom dataene, ser vi at overskriftene ser ut til å være i den første raden. Hev dem til overskrifter ved å velge hurtigmenyen for tabellen øverst til venstre i forhåndsvisningsrutenettet for å velge Bruk første rad som overskrifter.

    Skjermbilde som viser valget av alternativet Bruk første rad som overskrifter fra hurtigmenyen for tabellen.

    Notat

    Når du har forfremmet topptekstene, kan du se et nytt trinn lagt til i Brukte trinn-ruten øverst i redigeringsprogrammet for dataflyt til datatypene i kolonnene.

  2. Høyreklikk kolonnen VendorID, og velg alternativet Opphev aktivering av andre kolonnerfra hurtigmenyen som vises. Dette gjør at du kan transformere kolonner til attributtverdipar, der kolonner blir rader.

    Skjermbilde som viser hurtigmenyen for VendorID-kolonnen med valg av andre kolonner uthevet.

  3. Når tabellen ikke er angitt, gir du nytt navn til kolonnene Attributt og Verdi ved å dobbeltklikke dem og endre attributt til dato og verdi for å rabatt.

    Skjermbilde som viser tabellkolonnene etter å ha gitt attributtet nytt navn til dato og verdi til rabatt.

  4. Endre datatypen for Dato-kolonnen ved å velge datatypemenyen til venstre for kolonnenavnet og velge Dato.

    Skjermbilde som viser valget av datodatatypen for Dato-kolonnen.

  5. Velg kolonnen Rabatt, og velg deretter fanen Transformer på menyen. Velg tallkolonne, og velg deretter Standard numeriske transformasjoner fra undermenyen, og velg Divider.

    Skjermbilde som viser valget av alternativet Del opp for å transformere data i Rabatt-kolonnen.

  6. Skriv inn verdien 100 i dialogboksen Divider.

    Skjermbilde som viser dialogboksen Del opp med verdien 100 angitt og OK-knappen uthevet.

Kombinere turer og rabattdata

Det neste trinnet er å kombinere begge tabellene i én enkelt tabell som har rabatten som skal brukes på turen, og den justerte summen.

  1. Først slår du diagramvisning-knappen slik at du kan se begge spørringene.

    Skjermbilde som viser veksleknappen for diagramvisning med begge spørringene opprettet i denne opplæringen vist.

  2. Velg nyc_taxi spørringen, og velg Slå sammen spørringerHjem-fanen, velg Slå sammen-menyen, og velg deretter Slå sammen spørringer, og Slå sammen spørringer som nye.

    Skjermbilde som viser flettespørringene som nytt valg for nyc_taxi-spørringen.

  3. I dialogboksen Slå sammen velger du Genererte NYC-Taxi-Green-Discounts- fra høyre tabell for fletting rullegardin, og velg deretter «lyspære»-ikonet øverst til høyre i dialogboksen for å se den foreslåtte tilordningen av kolonner mellom de to tabellene.

    Skjermbilde som viser konfigurasjonen av dialogboksen Flett med foreslåtte kolonnetilordninger vist.

    Velg hver av de to foreslåtte kolonnetilordningene, én om gangen, som tilordner VendorID- og datokolonnene fra begge tabellene. Når begge tilordningene legges til, utheves de samsvarende kolonneoverskriftene i hver tabell.

  4. En melding vises der du blir bedt om å tillate kombinasjon av data fra flere datakilder for å vise resultatene. Velg OK i dialogboksen Slå sammen.

    Skjermbilde som viser forespørselen om å godkjenne kombinasjon av data fra flere datakilder, med OK-knappen uthevet.

  5. I tabellområdet ser du i utgangspunktet en advarsel om at evalueringen ble avbrutt fordi kombinasjon av data fra flere kilder kan vise data fra én kilde til en annen. Velg fortsett hvis muligheten for å avsløre data er ok.» Velg Fortsett for å vise de kombinerte dataene.

    Skjermbilde som viser advarselen om å kombinere data fra flere datakilder med Fortsett-knappen uthevet.

  6. Legg merke til hvordan en ny spørring ble opprettet i diagramvisning som viser relasjonen mellom den nye flettespørringen med de to spørringene du opprettet tidligere. Når du ser på tabellruten i redigeringsprogrammet, blar du til høyre for kolonnelisten flettingsspørring for å se en ny kolonne med tabellverdier. Dette er kolonnen "Generert NYC Taxi-Green-Discounts", og typen er [Tabell]. I kolonneoverskriften er det et ikon med to piler som går i motsatt retning, slik at du kan velge kolonner fra tabellen. Fjern merkingen for alle kolonnene unntatt Rabatt, og velg deretter OK.

    Skjermbilde som viser den sammenslåtte spørringen med kolonnevalgmenyen som vises for den nylig genererte kolonnen Generated-NYC-Taxi-Green-Discounts.

  7. Med rabattverdien nå på radnivå, kan vi opprette en ny kolonne for å beregne totalbeløpet etter rabatt. Hvis du vil gjøre dette, velger du fanen Legg til kolonne øverst i redigeringsprogrammet, og velger Egendefinert kolonne fra gruppen Generelt.

    Skjermbilde som viser Legg til egendefinert kolonne-knappen uthevet på Generelt-delen av Fanen Legg til kolonne.

  8. I dialogboksen egendefinert kolonne kan du bruke Power Query-formelspråket (også kalt M) til å definere hvordan den nye kolonnen skal beregnes. Skriv inn TotalAfterDiscount for Nytt kolonnenavn, velg Valuta for Datatype, og angi følgende M-uttrykk for egendefinert kolonneformel:

    hvis [totalAmount] > 0, vil [totalAmount] * ( 1 -[Rabatt] ) ellers [totalAmount]

    Velg deretter OK.

    Skjermbilde som viser konfigurasjonsskjermbildet for egendefinert kolonne med nytt kolonnenavn, datatype og egendefinert kolonneformel uthevet.

  9. Velg kolonnen TotalAfterDiscount, og velg deretter fanen Transformer øverst i redigeringsprogrammet. Velg rullegardinlisten Avrunding i tallkolonnen, og velg deretter Avrund....

    skjermbilde som viser avrundingen... på Fanen Transformer i redigeringsprogrammet.

  10. Skriv inn 2 for antall desimaler i dialogboksen runde, og velg deretter OK.

    Skjermbilde som viser dialogboksen Runde av med 2 for antall desimaler og OK-knappen uthevet.

  11. Endre datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslett.

    Skjermbilde som viser valget av datatypen Dato/klokkeslett for IpepPickupDatetime-kolonnen.

  12. Til slutt utvider du spørringsinnstillinger ruten fra høyre side av redigeringsprogrammet hvis den ikke allerede er utvidet, og gir nytt navn til spørringen fra Slå sammen for å utdata.

    Skjermbilde som viser navnet på spørringen fra Flett til Utdata.

Laste inn utdataspørringen til en tabell i Lakehouse

Med utdataspørringen nå fullstendig forberedt og med data klar til utdata, kan vi definere utdatamålet for spørringen.

  1. Velg utdata flettespørring opprettet tidligere. Velg deretter Hjem-fanen i redigeringsprogrammet, og Legg til datamål fra spørring gruppering, for å velge et Lakehouse-mål.

    Skjermbilde som viser Knappen Legg til datamål med Lakehouse uthevet.

  2. I dialogboksen Koble til datamål, bør tilkoblingen allerede være valgt. Velg Neste for å fortsette.

  3. I dialogboksen Velg målmål blar du til Lakehouse der du vil laste inn dataene og navngi den nye tabellen nyc_taxi_with_discounts, og velg deretter Neste på nytt.

    Skjermbilde som viser dialogboksen Velg målmål med tabellnavn nyc_taxi_with_discounts.

  4. Gå til dialogboksen Velg målinnstillinger, la standard Erstatt oppdateringsmetode, dobbeltsjekk at kolonnene er tilordnet riktig, og velg Lagre innstillinger.

    Skjermbilde som viser dialogboksen Velg målinnstillinger med Lagre innstillinger-knappen uthevet.

  5. Tilbake i hovedredigeringsprogrammet bekrefter du at du ser utdatamålet i spørringsinnstillinger for Utdata--tabellen, og deretter velger du Publiser.

    Viktig

    Når den første dataflyten Gen2 opprettes i et arbeidsområde, klargjøres Lakehouse- og Warehouse-elementer sammen med relaterte SQL Analytics-endepunkt og semantiske modeller. Disse elementene deles av alle dataflyter i arbeidsområdet og kreves for at Dataflyt gen2 skal fungere, bør ikke slettes, og er ikke ment å brukes direkte av brukere. Elementene er en implementeringsdetalj for Dataflyt gen2. Elementene er ikke synlige i arbeidsområdet, men kan være tilgjengelige i andre opplevelser, for eksempel notatblokken, SQL-endepunktet, Lakehouse og Warehouse. Du kan gjenkjenne elementene ved hjelp av prefikset i navnet. Prefikset for elementene er Dataflytsstaging.

  6. (valgfritt) På arbeidsområdesiden kan du gi nytt navn til dataflyten ved å velge ellipsen til høyre for dataflytnavnet som vises etter at du har merket raden, og velge Egenskaper.

    Skjermbilde som viser egenskaper-alternativet som er valgt på menyen for en dataflyt der den kan gis nytt navn.

  7. Velg oppdateringsikonet for dataflyten når du har valgt raden, og når den er fullført, skal du se den nye Lakehouse-tabellen opprettet som konfigurert i datamål innstillinger.

    Skjermbilde som viser valget av oppdateringsknappen for å oppdatere dataflyten.

  8. Sjekk Lakehouse for å se det nye bordet lastet der.

I denne andre modulen til vår ende-til-ende-opplæring for din første dataintegrering ved hjelp av Data Factory i Microsoft Fabric, lærte du hvordan du gjør følgende:

  • Opprett en ny dataflyt gen2.
  • Importere og transformere eksempeldata.
  • Importere og transformere tekst-/CSV-data.
  • Slå sammen data fra begge datakildene til en ny spørring.
  • Transformer data og generer nye kolonner i en spørring.
  • Konfigurer en utdatamålkilde for en spørring.
  • Gi nytt navn til og oppdater den nye dataflyten.

Fortsett til neste del nå for å integrere datasamlebåndet.