Del via


Sådan bruger du Data Wrangler på Spark DataFrames

Data Wrangler, der er et notesbogbaseret værktøj til udforskning af dataanalyser, understøtter nu både Spark DataFrames og pandas DataFrames. Det genererer PySpark-kode ud over Python-kode. Du kan få en generel oversigt over Data Wrangler, der dækker, hvordan du udforsker og transformerer pandas DataFrames, i det primære selvstudium. I dette selvstudium kan du se, hvordan du bruger Data Wrangler til at udforske og transformere Spark DataFrames.

Forudsætninger

  • Få et Microsoft Fabric-abonnement. Du kan også tilmelde dig en gratis Prøveversion af Microsoft Fabric.

  • Log på Microsoft Fabric.

  • Brug oplevelsesskifteren nederst til venstre på startsiden til at skifte til Fabric.

    Skærmbillede af menuen til skift af oplevelse, der viser, hvor du skal vælge Datavidenskab.

Begrænsninger

  • Brugerdefinerede kodehandlinger understøttes i øjeblikket kun for pandas DataFrames.
  • Visningen Data Wrangler fungerer bedst på store skærme, selvom du kan minimere eller skjule forskellige dele af grænsefladen for at imødekomme mindre skærme.

Start af Data Wrangler med en Spark DataFrame

Brugerne kan åbne Spark DataFrames i Data Wrangler direkte fra en Microsoft Fabric-notesbog ved at navigere til den samme rullelisteprompt, hvor pandas DataFrames vises. Der vises en liste over aktive Spark DataFrames på rullelisten under listen over aktive pandavariabler.

Dette kodestykke opretter en Spark DataFrame med de samme eksempeldata, der bruges i pandas Data Wrangler-selvstudiet:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Brug rullelisteprompten Data Wrangler på båndet "Hjem" på notesbogen til at gennemse aktive DataFrames, der er tilgængelige til redigering. Vælg den, du vil åbne, i Data Wrangler.

Tip

Data Wrangler kan ikke åbnes, mens notesbogkernen er optaget. En eksekveringscelle skal fuldføre udførelsen, før Data Wrangler kan starte, som vist på dette skærmbillede:

Skærmbillede, der viser en Fabric-notesbog med rullelisten Data Wrangler.

Valg af brugerdefinerede eksempler

Data Wrangler konverterer automatisk Spark DataFrames til pandas-eksempler af hensyn til ydeevnen. Men al den kode, som værktøjet genererer, oversættes i sidste ende til PySpark, når det eksporterer tilbage til notesbogen. Som med alle pandas DataFrame kan du tilpasse standardeksemplet. Hvis du vil åbne et brugerdefineret eksempel på en hvilken som helst aktiv dataramme med Data Wrangler, skal du vælge "Vælg brugerdefineret eksempel" på rullelisten som vist på dette skærmbillede:

Skærmbillede, der viser rullelisteprompten Data Wrangler med den brugerdefinerede eksempelindstilling, der er beskrevet.

Dette starter et pop op-vinduer med indstillinger til at angive størrelsen på det ønskede eksempel (antal rækker) og samplingsmetoden (første poster, sidste poster eller et tilfældigt sæt), som vist på dette skærmbillede:

Skærmbillede, der viser prompten data-Wrangler-brugerdefineret eksempel.

Visning af oversigtsstatistik

Når Data Wrangler indlæses, vises der et informationsbanner over eksempelgitteret. Dette banner forklarer, at Spark DataFrames midlertidigt konverteres til pandas-eksempler, men al genereret kode konverteres i sidste ende til PySpark. Tidligere er brugen af Data Wrangler på Spark DataFrames ikke anderledes end at bruge den på pandas DataFrames. En beskrivende oversigt i panelet "Oversigt" viser oplysninger om eksemplets dimensioner, manglende værdier og meget mere. Når du vælger en kolonne i gitteret Data Wrangler, bliver panelet "Oversigt" bedt om at opdatere og vise beskrivende statistikker om den pågældende kolonne. Hurtig indsigt om hver kolonne er også tilgængelig i overskriften.

Tip

Kolonnespecifikke statistikker og visualiseringer (både i panelet "Oversigt" og i kolonneoverskrifterne) afhænger af kolonnedatatypen. Et histogramme i beholdere med en numerisk kolonne vises f.eks. kun i kolonneoverskriften, hvis kolonnen er angivet som en numerisk type, som vist på dette skærmbillede:

Skærmbillede, der viser data-Wrangler-visningsgitteret og oversigtspanelet.

Gennemsyn af handlinger til rensning af data

Du kan finde en søgbar liste over trin til datarensning i panelet "Handlinger". I panelet "Handlinger" bliver du bedt om at angive en eller flere destinationskolonner sammen med eventuelle nødvendige parametre for at fuldføre trinnet, når du vælger et trin til datarensning. Prompten om numerisk skalering af en kolonne kræver f.eks. et nyt interval af værdier, som vist på dette skærmbillede:

Skærmbillede, der viser panelet Data Wrangler Operations.

Tip

Du kan anvende et mindre udvalg af handlinger i menuen i hver kolonneoverskrift som vist på dette skærmbillede:

Skærmbillede, der viser en Data Wrangler-handling, der kan anvendes fra kolonneoverskriftsmenuen.

Visning og anvendelse af handlinger

Visningsgitteret Data Wrangler viser automatisk resultaterne af en valgt handling, og den tilsvarende kode vises automatisk i panelet under gitteret. Hvis du vil bekræfte den viste kode, skal du vælge "Anvend" begge sted. Hvis du vil slette den viste kode og prøve en ny handling, skal du vælge "Fjern" som vist på dette skærmbillede:

Skærmbillede, der viser en igangværende Data Wrangler-handling.

Når en handling er anvendt, opdateres data-Wrangler-visningsgitteret og oversigtsstatistikken for at afspejle resultaterne. Koden vises på den løbende liste over bekræftede handlinger, der er placeret i panelet "Rengøringstrin", som vist på dette skærmbillede:

Skærmbillede, der viser en anvendt Data Wrangler-handling.

Tip

Du kan altid fortryde det senest anvendte trin. I panelet "Rengøringstrin" vises der et papirkurvsikon, hvis du holder markøren over det senest anvendte trin, som vist på dette skærmbillede:

Skærmbillede, der viser en Data Wrangler-handling, der kan fortrydes.

I denne tabel opsummeres de handlinger, som Data Wrangler understøtter i øjeblikket:

Handling Beskrivelse
Sortér Sortér en kolonne i stigende eller faldende rækkefølge
Filter Filtrer rækker baseret på en eller flere betingelser
Kode med én varm kode Opret nye kolonner for hver entydige værdi i en eksisterende kolonne, der angiver tilstedeværelsen eller fraværet af disse værdier pr. række
En varm kode med afgrænser Opdel og en varm kode for kategoriske data ved hjælp af en afgrænser
Skift kolonnetype Skift datatypen for en kolonne
Slip kolonne Slet en eller flere kolonner
Vælg kolonne Vælg en eller flere kolonner, der skal bevares, og slet resten
Omdøb kolonne Omdøb en kolonne
Slip manglende værdier Fjern rækker med manglende værdier
Slip dublerede rækker Slip alle rækker, der har dublerede værdier i en eller flere kolonner
Udfyld manglende værdier Erstat celler med manglende værdier med en ny værdi
Søg og erstat Erstat celler med et nøjagtigt matchende mønster
Gruppér efter kolonne og aggregering Gruppér efter kolonneværdier, og aggreger resultater
Blanktegn i stribe Fjern mellemrum fra starten og slutningen af teksten
Opdel tekst Opdel en kolonne i flere kolonner baseret på en brugerdefineret afgrænser
Konvertér tekst til små bogstaver Konvertér tekst til små bogstaver
Konvertér tekst til store bogstaver Konvertér tekst til STORE BOGSTAVER
Skaler min./maks. værdier Skaler en numerisk kolonne mellem en minimum- og maksimumværdi
Hurtigudfyld Opret automatisk en ny kolonne baseret på eksempler, der er afledt af en eksisterende kolonne

Rediger din skærm

Du kan når som helst tilpasse grænsefladen med fanen "Visninger" på værktøjslinjen over visningsgitteret Data Wrangler. Dette kan skjule eller vise forskellige ruder baseret på dine indstillinger og skærmstørrelse, som vist på dette skærmbillede:

Skærmbillede, der viser menuen Data Wrangler til tilpasning af visningsvisningen.

Gemmer og eksporterer kode

Værktøjslinjen over visningsgitteret Data Wrangler indeholder indstillinger til at gemme den genererede kode. Du kan kopiere koden til Udklipsholder eller eksportere den til notesbogen som en funktion. For Spark DataFrames oversættes al den kode, der genereres på pandas-eksemplet, til PySpark, før den lander tilbage i notesbogen. Før Data Wrangler lukker, viser værktøjet et eksempel på den oversatte PySpark-kode, og det giver også mulighed for at eksportere den mellemliggende pandas-kode.

Tip

Data Wrangler genererer kode, der kun anvendes, når du kører den nye celle manuelt, og den overskriver ikke den oprindelige DataFrame, som vist på dette skærmbillede:

Skærmbillede, der viser indstillingerne for eksport af kode i Data Wrangler.

Koden konverteres til PySpark som vist på dette skærmbillede:

Skærmbillede, der viser PySpark-eksemplet i eksportkodeprompten i Data Wrangler.

Du kan derefter køre den eksporterede kode som vist på dette skærmbillede:

Skærmbillede, der viser den kode, der er genereret af Data Wrangler, tilbage i notesbogen.