Del via


Slik akselererer du dataforberedelser med Data Wrangler i Microsoft Fabric

Data Wrangler-verktøyet er en notatblokkbasert ressurs som gir et engasjerende grensesnitt for utforskende dataanalyse. Den kombinerer en rutenettlignende datavisning med dynamisk sammendragsstatistikk, innebygde visualiseringer og et bibliotek med vanlige datarengjøringsoperasjoner. Du kan bruke hver operasjon med noen få trinn. Du kan oppdatere datavisningen i sanntid og generere kode i pandaer eller PySpark som du kan lagre tilbake til notatblokken som en gjenbrukbar funksjon. Denne artikkelen fokuserer på utforskning og transformasjon av pandas DataFrames. Hvis du vil ha mer informasjon om hvordan du bruker Data Wrangler på Spark DataFrames, kan du gå til denne ressursen.

Forutsetning

  • Få et Microsoft Fabric-abonnement. Eller registrer deg for en gratis prøveversjon av Microsoft Fabric.

  • Logg på Microsoft Fabric.

  • Bruk opplevelsesbryteren til venstre på hjemmesiden for å bytte til Synapse Data Science-opplevelsen.

    Skjermbilde av menyen for opplevelsesbryteren, som viser hvor du velger Datavitenskap.

Begrensninger

  • Egendefinerte kodeoperasjoner støttes for øyeblikket bare for pandas DataFrames.
  • Data Wrangler-skjermen fungerer best på store skjermer, selv om du kan minimere eller skjule ulike deler av grensesnittet for å få plass til mindre skjermer.

Starter Data Wrangler

Du kan starte Data Wrangler direkte fra en Microsoft Fabric-notatblokk for å utforske og transformere pandaer eller Spark DataFrame. Hvis du vil ha mer informasjon om hvordan du bruker Data Wrangler med Spark DataFrames, kan du gå til denne hjelpeartikkelen. Denne kodesnutten viser hvordan du leser eksempeldata i en pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Bruk rullegardinlisten Data Wrangler til å bla gjennom de aktive datarammene som er tilgjengelige for redigering, på notatblokkbåndets Hjem-fane. Velg den du vil åpne i Data Wrangler.

Tips

Data-Wrangler kan ikke åpnes mens notatblokkkjernen er opptatt. En kjørende celle må fullføre kjøringen før Data Wrangler kan starte, som vist i dette skjermbildet:

Skjermbilde som viser en Fabric-notatblokk med rullegardinlisten Data Wrangler.

Velge egendefinerte eksempler

Hvis du vil åpne et egendefinert eksempel på en aktiv DataFrame med Data Wrangler, velger du «Velg egendefinert eksempel» fra rullegardinlisten, som vist i dette skjermbildet:

Skjermbilde som viser rullegardinlisten Data Wrangler med det egendefinerte eksempelalternativet beskrevet.

Dette starter et popup-vindu med alternativer for å angi størrelsen på det ønskede eksemplet (antall rader) og samplingsmetoden (første poster, siste poster eller et tilfeldig sett). De første 5000 radene i DataFrame fungerer som standard eksempelstørrelse, som vist i dette skjermbildet:

Skjermbilde som viser den egendefinerte eksempelledeteksten for Data Wrangler.

Vise sammendragsstatistikk

Når Data Wrangler lastes inn, vises en beskrivende oversikt over den valgte DataFrame i Sammendrag-panelet. Denne oversikten inneholder informasjon om DataFrame-dimensjonene, manglende verdier og mer. Valg av en kolonne i Data Wrangler-rutenettet ber Sammendrag-panelet om å oppdatere og vise beskrivende statistikk om den bestemte kolonnen. Rask innsikt om hver kolonne er også tilgjengelig i toppteksten.

Tips

Kolonnespesifikk statistikk og visualobjekter (både i Sammendrag-panelet og i kolonneoverskriftene) avhenger av kolonnedatatypen. Et binned histogram for en numerisk kolonne vises for eksempel bare i kolonneoverskriften hvis kolonnen er avgitt som en numerisk type, som vist i dette skjermbildet:

Skjermbilde som viser visningsrutenettet for Data Wrangler og Sammendrag-panelet.

Bla gjennom datarengjøringsoperasjoner

Du finner en søkbar liste over trinn for datarengjøring i «Operasjoner»-panelet. I «Operasjoner»-panelet ber valg av et datarengjøringstrinn deg om å angi en målkolonne eller kolonner, sammen med eventuelle nødvendige parametere for å fullføre trinnet. For eksempel krever ledeteksten for numerisk skalering av en kolonne et nytt verdiområde, som vist i dette skjermbildet:

Skjermbilde som viser Data Wrangler Operations-panelet.

Tips

Du kan bruke et mindre utvalg av operasjoner fra menyen i hver kolonneoverskrift, som vist i dette skjermbildet:

Skjermbilde som viser en Data Wrangler-operasjon som kan brukes fra kolonneoverskriftsmenyen.

Forhåndsvise og bruke operasjoner

Data Wrangler-visningsrutenettet forhåndsviser automatisk resultatene av en valgt operasjon, og den tilsvarende koden vises automatisk i panelet under rutenettet. Hvis du vil utføre den forhåndsviste koden, velger du Bruk på begge steder. Hvis du vil slette den forhåndsviste koden og prøve en ny operasjon, velger du «Forkast» som vist i dette skjermbildet:

Skjermbilde som viser en data-Wrangler-operasjon som pågår.

Når en operasjon er brukt, viser data-Wrangler-rutenettet og sammendragsstatistikken oppdatering for å gjenspeile resultatene. Koden vises i den løpende listen over forpliktede operasjoner, plassert i panelet «Rengjøringstrinn», som vist i dette skjermbildet:

Skjermbilde som viser en brukt Data Wrangler-operasjon.

Tips

Du kan alltid angre det sist brukte trinnet. I panelet «Rengjøringstrinn» vises et papirkurvikon hvis du holder markøren over det siste brukte trinnet, som vist i dette skjermbildet:

Skjermbilde som viser en Data Wrangler-operasjon som kan angres.

Denne tabellen oppsummerer operasjonene som Data Wrangler for øyeblikket støtter:

Operasjon Beskrivelse
Sorter Sortere en kolonne i stigende eller synkende rekkefølge
Filter Filtrere rader basert på én eller flere betingelser
En-hot kode Opprett nye kolonner for hver unike verdi i en eksisterende kolonne, som angir tilstedeværelse eller fravær av disse verdiene per rad
En-hot kode med skilletegn Del og en-hot kode kategoriske data ved hjelp av et skilletegn
Endre kolonnetype Endre datatypen for en kolonne
Slipp kolonne Slette én eller flere kolonner
Velg kolonne Velg én eller flere kolonner du vil beholde, og slett resten
Gi nytt navn til kolonne Gi nytt navn til en kolonne
Slipp manglende verdier Fjerne rader med manglende verdier
Slipp dupliserte rader Slipp alle rader som har dupliserte verdier i én eller flere kolonner
Fyll manglende verdier Erstatt celler med manglende verdier med en ny verdi
Søk etter og erstatt Erstatt celler med et nøyaktig samsvarende mønster
Grupper etter kolonne og aggreger Grupper etter kolonneverdier og aggreger resultater
Stripe mellomrom Fjerne mellomrom fra begynnelsen og slutten av teksten
Dele tekst Dele en kolonne i flere kolonner basert på et brukerdefinert skilletegn
Konvertere tekst til små bokstaver Konvertere tekst til små bokstaver
Konvertere tekst til store bokstaver Konvertere tekst til STORE BOKSTAVER
Skaler min/maks.verdier Skalere en numerisk kolonne mellom en minimums- og maksimumsverdi
Rask utfylling Opprett automatisk en ny kolonne basert på eksempler avledet fra en eksisterende kolonne

Endre visningen

Når som helst kan du tilpasse grensesnittet med «Visninger»-fanen på verktøylinjen som er plassert over visningsrutenettet for Data Wrangler. Dette kan skjule eller vise forskjellige ruter basert på innstillinger og skjermstørrelse, som vist i dette skjermbildet:

Skjermbilde som viser Data Wrangler-menyen for å tilpasse visningsvisningen.

Lagre og eksportere kode

Verktøylinjen over visningsrutenettet for Data Wrangler inneholder alternativer for å lagre den genererte koden. Du kan kopiere koden til utklippstavlen eller eksportere den til notatblokken som en funksjon. Når du eksporterer koden, lukkes Data Wrangler og den nye funksjonen legges til i en kodecelle i notatblokken. Du kan også laste ned den rengjorte DataFrame som en csv-fil.

Tips

Data Wrangler genererer kode som bare brukes når du kjører den nye cellen manuelt, og den vil ikke overskrive den opprinnelige DataFrame, som vist i dette skjermbildet:

Skjermbilde som viser alternativene for eksport av kode i Data Wrangler.

Deretter kan du kjøre den eksporterte koden, som vist i dette skjermbildet:

Skjermbilde som viser koden som genereres av Data Wrangler, tilbake i notatblokken.