Påskynda dataförberedelser med Data Wrangler i Microsoft Fabric

Artikel
08/14/2024

Data Wrangler-verktyget är en notebook-baserad resurs som tillhandahåller ett uppslukande gränssnitt för undersökande dataanalys. Den kombinerar en rutnätsliknande datavisning med dynamisk sammanfattningsstatistik, inbyggda visualiseringar och ett bibliotek med vanliga datarensningsåtgärder. Du kan använda varje åtgärd med några få steg. Du kan uppdatera datavisningen i realtid och generera kod i Pandas eller PySpark som du kan spara tillbaka till notebook-filen som en återanvändbar funktion. Den här artikeln fokuserar på utforskning och omvandling av Pandas DataFrames. Mer information om hur du använder Data Wrangler på Spark DataFrames finns i den här resursen.

Förutsättningar

Skaffa en Microsoft Fabric-prenumeration. Eller registrera dig för en kostnadsfri utvärderingsversion av Microsoft Fabric.
Logga in på Microsoft Fabric.
Använd upplevelseväxlaren längst ner till vänster på din startsida för att växla till Fabric.

Begränsningar

Anpassade kodåtgärder stöds för närvarande endast för Pandas DataFrames.
Data Wrangler-skärmen fungerar bäst på stora bildskärmar, även om du kan minimera eller dölja olika delar av gränssnittet för att hantera mindre skärmar.

Starta Data Wrangler

Du kan starta Data Wrangler direkt från en Microsoft Fabric-notebook-fil för att utforska och transformera pandas eller Spark DataFrame. Mer information om hur du använder Data Wrangler med Spark DataFrames finns i den här kompletterande artikeln. Det här kodfragmentet visar hur du läser exempeldata i en Pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

På menyfliken Start i notebook-menyfliken använder du listrutan Data Wrangler för att bläddra bland de aktiva dataramar som är tillgängliga för redigering. Välj den som du vill öppna i Data Wrangler.

Dricks

Det går inte att öppna Data Wrangler när notebook-kerneln är upptagen. En cell som körs måste slutföra körningen innan Data Wrangler kan startas, vilket visas i den här skärmbilden:

Välja anpassade exempel

Om du vill öppna ett anpassat exempel på en aktiv DataFrame med Data Wrangler väljer du "Välj anpassat exempel" i listrutan, som du ser i den här skärmbilden:

Detta startar ett popup-fönster med alternativ för att ange storleken på önskat exempel (antal rader) och samplingsmetoden (första poster, sista poster eller en slumpmässig uppsättning). De första 5 000 raderna i DataFrame fungerar som standardexempelstorlek, som du ser i den här skärmbilden:

Visa sammanfattningsstatistik

När Data Wrangler läses in visas en beskrivande översikt över den valda dataramen i panelen Sammanfattning. Den här översikten innehåller information om DataFrame-dimensionerna, dess saknade värden med mera. Val av valfri kolumn i rutnätet Data Wrangler uppmanar panelen Sammanfattning att uppdatera och visa beskrivande statistik om den specifika kolumnen. Snabbinsikter om varje kolumn är också tillgängliga i rubriken.

Dricks

Kolumnspecifik statistik och visuella objekt (både i panelen Sammanfattning och i kolumnrubrikerna) beror på kolumndatatypen. Till exempel visas ett binerat histogram för en numerisk kolumn endast i kolumnrubriken om kolumnen är gjuten som en numerisk typ, som visas i den här skärmbilden:

Bläddra bland datarensningsåtgärder

En sökbar lista över datarensningssteg finns på panelen "Åtgärder". I panelen "Åtgärder" uppmanar valet av ett datarensningssteg dig att ange en målkolumn eller kolumner, tillsammans med eventuella nödvändiga parametrar för att slutföra steget. Till exempel kräver uppmaningen att numeriskt skala en kolumn ett nytt värdeintervall, som du ser i den här skärmbilden:

Dricks

Du kan använda ett mindre urval av åtgärder från menyn i varje kolumnrubrik, som du ser i den här skärmbilden:

Förhandsgranska och tillämpa åtgärder

Data Wrangler-visningsrutnätet förhandsgranskar automatiskt resultatet av en vald åtgärd och motsvarande kod visas automatiskt i panelen under rutnätet. Om du vill checka in den förhandsgranskade koden väljer du "Tillämpa" på någon av platserna. Om du vill ta bort den förhandsgranskade koden och prova en ny åtgärd väljer du "Ignorera" enligt den här skärmbilden:

När en åtgärd har tillämpats uppdateras Data Wrangler-visningsrutnätet och sammanfattningsstatistiken för att återspegla resultatet. Koden visas i listan över åtgärder som körs, som finns i panelen "Rengöringssteg", som du ser i den här skärmbilden:

Dricks

Du kan alltid ångra det senast tillämpade steget. I panelen "Rengöringssteg" visas en papperskorgsikon om du hovra markören över det senast tillämpade steget, som du ser i den här skärmbilden:

Den här tabellen sammanfattar de åtgärder som Data Wrangler för närvarande stöder:

Åtgärd	Beskrivning
Sortera	Sortera en kolumn i stigande eller fallande ordning
Filter	Filtrera rader baserat på ett eller flera villkor
Koda med en frekvent kodning	Skapa nya kolumner för varje unikt värde i en befintlig kolumn, vilket anger förekomsten eller frånvaron av dessa värden per rad
En frekvent kodning med avgränsare	Dela upp och koda kategoriska data med en avgränsare
Ändra kolumntyp	Ändra datatypen för en kolumn
Ta bort kolumn	Ta bort en eller flera kolumner
Välj kolumn	Välj en eller flera kolumner att behålla och ta bort resten
Byt namn på kolumn	Byt namn på en kolumn
Ta bort saknade värden	Ta bort rader med saknade värden
Ta bort dubblettrader	Släpp alla rader som har duplicerade värden i en eller flera kolumner
Fyll saknade värden	Ersätt celler med saknade värden med ett nytt värde
Hitta och ersätt	Ersätt celler med ett exakt matchande mönster
Gruppera efter kolumn och aggregering	Gruppera efter kolumnvärden och aggregera resultat
Ta bort tomt utrymme	Ta bort blanksteg från början och slutet av texten
Dela upp text	Dela upp en kolumn i flera kolumner baserat på en användardefinierad avgränsare
Konvertera text till gemener	Konvertera text till gemener
Konvertera text till versaler	Konvertera text till VERSALER
Skala min/max-värden	Skala en numerisk kolumn mellan ett lägsta och högsta värde
Flash-fyllning	Skapa automatiskt en ny kolumn baserat på exempel som härletts från en befintlig kolumn

Ändra bildskärmen

När som helst kan du anpassa gränssnittet med fliken Vyer i verktygsfältet ovanför visningsrutnätet för Data Wrangler. Detta kan dölja eller visa olika fönster baserat på dina inställningar och skärmstorlek, som du ser i den här skärmbilden:

Spara och exportera kod

Verktygsfältet ovanför visningsrutnätet för Data Wrangler innehåller alternativ för att spara den genererade koden. Du kan kopiera koden till Urklipp eller exportera den till notebook-filen som en funktion. När du exporterar koden stängs Data Wrangler och den nya funktionen läggs till i en kodcell i notebook-filen. Du kan också ladda ned den rensade DataFrame som en csv-fil.

Dricks

Data Wrangler genererar kod som endast tillämpas när du kör den nya cellen manuellt, och den skriver inte över din ursprungliga DataFrame, som du ser i den här skärmbilden:

Du kan sedan köra den exporterade koden, som du ser i den här skärmbilden:

Om du vill testa Data Wrangler på Spark DataFrames kan du gå till den här kompletterande artikeln
För en live-action demo av Data Wrangler i Fabric, kolla in den här videon från våra vänner på Guy in a Cube
Om du vill testa Data Wrangler i Visual Studio Code går du till Data Wrangler i VS Code
Missade vi en funktion som du behöver? Berätta för oss! Föreslå det på forumet för infrastrukturidéer

Dela via

Påskynda dataförberedelser med Data Wrangler i Microsoft Fabric

Förutsättningar

Begränsningar

Starta Data Wrangler

Välja anpassade exempel

Visa sammanfattningsstatistik

Bläddra bland datarensningsåtgärder

Förhandsgranska och tillämpa åtgärder

Ändra bildskärmen

Spara och exportera kod

Feedback

Ytterligare resurser

Dela via

Påskynda dataförberedelser med Data Wrangler i Microsoft Fabric

Förutsättningar

Begränsningar

Starta Data Wrangler

Välja anpassade exempel

Visa sammanfattningsstatistik

Bläddra bland datarensningsåtgärder

Förhandsgranska och tillämpa åtgärder

Ändra bildskärmen

Spara och exportera kod

Relaterat innehåll

Feedback

Ytterligare resurser