Data Wrangler gebruiken in Spark DataFrames

Artikel
08/14/2024

Data Wrangler, een hulpprogramma op basis van een notebook voor experimentele gegevensanalyse, ondersteunt nu zowel Spark DataFrames als pandas DataFrames. Er wordt pySpark-code gegenereerd, naast Python-code. Voor een algemeen overzicht van Data Wrangler, waarin wordt beschreven hoe u pandas DataFrames kunt verkennen en transformeren, gaat u naar de hoofdzelfstudie. In deze zelfstudie leert u hoe u Data Wrangler gebruikt om Spark DataFrames te verkennen en te transformeren.

Vereisten

Haal een Microsoft Fabric-abonnement op. Of meld u aan voor een gratis proefversie van Microsoft Fabric.
Meld u aan bij Microsoft Fabric.
Gebruik de ervaringswisselaar aan de linkerkant van de startpagina om over te schakelen naar Fabric.

Beperkingen

Aangepaste codebewerkingen worden momenteel alleen ondersteund voor pandas DataFrames.
De Data Wrangler-weergave werkt het beste op grote beeldschermen, hoewel u verschillende delen van de interface kunt minimaliseren of verbergen om kleinere schermen mogelijk te maken.

Data Wrangler starten met een Spark DataFrame

Gebruikers kunnen Spark DataFrames rechtstreeks vanuit een Microsoft Fabric-notebook openen in Data Wrangler door te navigeren naar dezelfde vervolgkeuzelijst waarin pandas DataFrames worden weergegeven. Er wordt een lijst met actieve Spark DataFrames weergegeven in de vervolgkeuzelijst onder de lijst met actieve pandas-variabelen.

Met dit codefragment maakt u een Spark DataFrame met dezelfde voorbeeldgegevens die worden gebruikt in de zelfstudie pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Gebruik op het tabblad Start van het notitiebloklint de vervolgkeuzelijst Data Wrangler om door actieve DataFrames te bladeren die beschikbaar zijn voor bewerking. Selecteer het bestand dat u wilt openen in Data Wrangler.

Tip

Data Wrangler kan niet worden geopend terwijl de notebook-kernel bezet is. Een uitvoerbare cel moet de uitvoering voltooien voordat Data Wrangler kan worden gestart, zoals wordt weergegeven in deze schermopname:

Aangepaste voorbeelden kiezen

Data Wrangler converteert Spark DataFrames automatisch naar pandas-voorbeelden om prestatieredenen. Alle code die door het hulpprogramma wordt gegenereerd, wordt echter uiteindelijk vertaald naar PySpark wanneer het weer naar het notebook exporteert. Net als bij elk pandas DataFrame kunt u het standaardvoorbeeld aanpassen. Als u een aangepast voorbeeld van een actief DataFrame met Data Wrangler wilt openen, selecteert u 'Aangepast voorbeeld kiezen' in de vervolgkeuzelijst, zoals wordt weergegeven in deze schermopname:

Hiermee opent u een pop-up met opties om de grootte van het gewenste voorbeeld (aantal rijen) en de steekproefmethode (eerste records, laatste records of een willekeurige set) op te geven, zoals wordt weergegeven in deze schermopname:

Samenvattingsstatistieken weergeven

Wanneer Data Wrangler wordt geladen, wordt er een informatieve banner boven het voorbeeldraster weergegeven. In deze banner wordt uitgelegd dat Spark DataFrames tijdelijk worden geconverteerd naar pandas-voorbeelden, maar dat alle gegenereerde code uiteindelijk wordt geconverteerd naar PySpark. Voorbij dat is het gebruik van Data Wrangler in Spark DataFrames niet anders dan het gebruik ervan op pandas DataFrames. Een beschrijvend overzicht in het deelvenster Samenvatting geeft informatie weer over de afmetingen van het voorbeeld, ontbrekende waarden en meer. Als u een kolom in het Data Wrangler-raster selecteert, wordt het deelvenster Samenvatting gevraagd om beschrijvende statistieken over die specifieke kolom bij te werken en weer te geven. Snelle inzichten over elke kolom zijn ook beschikbaar in de koptekst.

Tip

Kolomspecifieke statistieken en visuals (zowel in het deelvenster Samenvatting als in de kolomkoppen) zijn afhankelijk van het kolomgegevenstype. Een binned histogram van een numerieke kolom wordt bijvoorbeeld alleen weergegeven in de kolomkop als de kolom wordt gecast als een numeriek type, zoals wordt weergegeven in deze schermopname:

Browsebewerkingen voor het opschonen van gegevens

Een doorzoekbare lijst met stappen voor het opschonen van gegevens vindt u in het deelvenster Bewerkingen. In het deelvenster Bewerkingen wordt u gevraagd om een doelkolom of -kolommen op te geven, samen met de benodigde parameters om de stap te voltooien. De prompt om een kolom numeriek te schalen vereist bijvoorbeeld een nieuw bereik met waarden, zoals wordt weergegeven in deze schermopname:

Tip

U kunt een kleinere selectie van bewerkingen toepassen vanuit het menu van elke kolomkop, zoals wordt weergegeven in deze schermopname:

Voorbeeld van bewerkingen bekijken en toepassen

In het data Wrangler-weergaveraster worden automatisch de resultaten van een geselecteerde bewerking weergegeven. De bijbehorende code wordt automatisch weergegeven in het deelvenster onder het raster. Als u de voorbeeldcode wilt doorvoeren, selecteert u 'Toepassen' op een van beide plaatsen. Als u de voorbeeldcode wilt verwijderen en een nieuwe bewerking wilt proberen, selecteert u Verwijderen, zoals wordt weergegeven in deze schermopname:

Zodra een bewerking is toegepast, worden in data Wrangler raster- en overzichtsstatistieken bijgewerkt om de resultaten weer te geven. De code wordt weergegeven in de lijst met vastgelegde bewerkingen, die zich in het deelvenster 'Stappen voor opschonen' bevinden, zoals wordt weergegeven in deze schermopname:

Tip

U kunt de meest recent toegepaste stap altijd ongedaan maken. In het deelvenster 'Schoonmaakstappen' wordt een prullenbakpictogram weergegeven als u de cursor boven die laatst toegepaste stap plaatst, zoals wordt weergegeven in deze schermopname:

Deze tabel bevat een overzicht van de bewerkingen die Data Wrangler momenteel ondersteunt:

Bewerking	Beschrijving
Sort	Een kolom sorteren in oplopende of aflopende volgorde
Filteren	Rijen filteren op basis van een of meer voorwaarden
One-hot-codering	Nieuwe kolommen maken voor elke unieke waarde in een bestaande kolom, die de aanwezigheid of afwezigheid van deze waarden per rij aangeeft
One-hot codering met scheidingsteken	Categorische gegevens splitsen en met één hot coderen met behulp van een scheidingsteken
Kolomtype wijzigen	Het gegevenstype van een kolom wijzigen
Kolom neerzetten	Een of meer kolommen verwijderen
Kolom selecteren	Kies een of meer kolommen die u wilt behouden en verwijder de rest
Kolomnaam wijzigen	De naam van een kolom wijzigen
Ontbrekende waarden verwijderen	Rijen met ontbrekende waarden verwijderen
Dubbele rijen verwijderen	Verwijder alle rijen met dubbele waarden in een of meer kolommen
Ontbrekende waarden doorvoeren	Cellen vervangen door ontbrekende waarden door een nieuwe waarde
Zoeken en vervangen	Cellen vervangen door een exact overeenkomend patroon
Groeperen op kolom en aggregeren	Groeperen op kolomwaarden en geaggregeerde resultaten
Witruimte stripen	Witruimte verwijderen uit het begin en einde van de tekst
Tekst splitsen	Een kolom splitsen in verschillende kolommen op basis van een door de gebruiker gedefinieerd scheidingsteken
Tekst converteren naar kleine letters	Tekst converteren naar kleine letters
Tekst converteren naar hoofdletters	Tekst converteren naar HOOFDLETTERS
Min/max-waarden schalen	Een numerieke kolom schalen tussen een minimum- en maximumwaarde
Snel aanvullen	Automatisch een nieuwe kolom maken op basis van voorbeelden die zijn afgeleid van een bestaande kolom

Uw weergave wijzigen

U kunt de interface op elk gewenst moment aanpassen met het tabblad Weergaven in de werkbalk boven het weergaveraster van Data Wrangler. Dit kan verschillende deelvensters verbergen of weergeven op basis van uw voorkeuren en schermgrootte, zoals wordt weergegeven in deze schermopname:

Code opslaan en exporteren

De werkbalk boven het weergaveraster Data Wrangler biedt opties voor het opslaan van de gegenereerde code. U kunt de code als een functie naar het klembord kopiëren of exporteren naar het notitieblok. Voor Spark DataFrames wordt alle code die in het pandas-voorbeeld wordt gegenereerd, vertaald naar PySpark voordat deze weer in het notebook terechtkomt. Voordat Data Wrangler wordt gesloten, geeft het hulpprogramma een voorbeeld weer van de vertaalde PySpark-code en biedt het ook een optie om de tussenliggende pandas-code te exporteren.

Tip

Data Wrangler genereert code die alleen wordt toegepast wanneer u de nieuwe cel handmatig uitvoert en uw oorspronkelijke DataFrame niet overschrijft, zoals wordt weergegeven in deze schermopname:

De code wordt geconverteerd naar PySpark, zoals wordt weergegeven in deze schermopname:

Vervolgens kunt u die geëxporteerde code uitvoeren, zoals wordt weergegeven in deze schermopname:

Raadpleeg dit aanvullende artikel voor een overzicht van Data Wrangler
Als u Data Wrangler in Visual Studio Code wilt uitproberen, gaat u naar Data Wrangler in VS Code
Hebben we een functie gemist die u nodig hebt? Laat het ons weten! Stel het voor op het Forum Fabric Ideas

Delen via

Data Wrangler gebruiken in Spark DataFrames

Vereisten

Beperkingen

Data Wrangler starten met een Spark DataFrame

Aangepaste voorbeelden kiezen

Samenvattingsstatistieken weergeven

Browsebewerkingen voor het opschonen van gegevens

Voorbeeld van bewerkingen bekijken en toepassen

Uw weergave wijzigen

Code opslaan en exporteren

Feedback

Aanvullende resources

Delen via

Data Wrangler gebruiken in Spark DataFrames

Vereisten

Beperkingen

Data Wrangler starten met een Spark DataFrame

Aangepaste voorbeelden kiezen

Samenvattingsstatistieken weergeven

Browsebewerkingen voor het opschonen van gegevens

Voorbeeld van bewerkingen bekijken en toepassen

Uw weergave wijzigen

Code opslaan en exporteren

Gerelateerde inhoud

Feedback

Aanvullende resources