Freigeben über


Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric

Beim Tool Data Wrangler handelt es sich um eine notebookbasierte Ressource, die eine immersive Schnittstelle für die explorative Datenanalyse bietet. Sie vereint eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek mit allgemeinen Datenbereinigungsvorgängen. Die einzelnen Vorgänge lassen sich mit wenigen Schritten durchführen. Sie können die Datenanzeige in Echtzeit aktualisieren und Code in Pandas oder PySpark generieren. Dieser Code kann als wiederverwendbare Funktion im Notebook gespeichert werden. In diesem Artikel liegt der Schwerpunkt auf dem Untersuchen und Transformieren von Pandas-DataFrames. Weitere Informationen zur Nutzung von Data Wrangler in Spark-DataFrames finden Sie in dieser Ressource.

Voraussetzungen

Begrenzungen

  • Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
  • Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Nutzung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.

Data Wrangler starten

Sie können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um Pandas oder Spark Dataframes zu untersuchen und zu transformieren. Weitere Informationen zur Nutzung von Data Wrangler mit Spark-DataFrames finden Sie in diesem Begleitartikel. Der folgende Codeschnipsel zeigt, wie Stichprobendaten in einen Pandas-DataFrame eingelesen werden können:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Verwenden Sie auf der Registerkarte „Start“ des Notebookmenübands die Dropdown-Aufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren DataFrames zu durchsuchen. Wählen Sie denjenigen aus, den Sie in Data Wrangler öffnen möchten.

Tipp

Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen sein, bevor Data Wrangler gestartet werden kann, wie im folgenden Screenshot dargestellt:

Screenshot: Fabric-Notebook mit der Dropdownaufforderung von Data Wrangler

Auswählen von benutzerdefinierten Beispielen

Zum Öffnen einer benutzerdefinierten Stichprobe eines aktiven DataFrame mit Date Wrangler wählen Sie im Dropdownmenü die Option „Benutzerdefinierte Stichprobe wählen“ aus, wie im folgenden Screenshot dargestellt:

Screenshot der Dropdownaufforderung „Data Wrangler“ mit der benutzerdefinierten Beispieloption.

Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können. Die ersten 5.000 Zeilen des DataFrame dienen als Standard-Stichprobengröße, wie im folgenden Screenshot gezeigt:

Screenshot der benutzerdefinierten Beispielabfrage von Data Wrangler.

Anzeigen von Zusammenfassungsstatistiken

Wenn Data Wrangler geladen wird, zeigt es eine beschreibende Übersicht über den gewählten DataFrame im Bereich „Zusammenfassung“ an. Diese Übersicht enthält u. a. Informationen zu den DataeFrame-Dimensionen und zu fehlenden Werten. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Bereich „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zur betreffenden Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.

Tipp

Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird, wie im folgenden Screenshot dargestellt:

Screenshot: Anzeigeraster und Panel „Zusammenfassung“ von Data Wrangler

Durchsuchen von Datenbereinigungsvorgängen

Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Bei der Aufforderung zur numerischen Skalierung ist beispielsweise ein neuer Wertebereich erforderlich, wie im folgenden Screenshot gezeigt:

Screenshot: Data Wrangler-Panel „Vorgänge“

Tipp

Sie können eine kleinere Auswahl von Vorgängen aus dem Menü der einzelnen Spaltenüberschriften anwenden, wie im folgenden Screenshot dargestellt:

Screenshot eines Data Wrangler-Vorgangs, der über das Spaltenüberschriftenmenü angewendet werden kann.

Anzeigen der Vorschau und Anwenden von Vorgängen

Die Ergebnisse eines ausgewählten Vorgangs werden im Data Wrangler-Anzeigeraster automatisch in der Vorschau angezeigt, und der entsprechende Code erscheint automatisch in dem Bereich unter dem Raster. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den in der Vorschau angezeigten Code zu löschen und einen neuen Vorgang auszuprobieren, wählen Sie „Verwerfen“ aus, wie im folgenden Screenshot gezeigt:

Screenshot: Aktiver Data Wrangler-Vorgang

Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der laufenden Liste der festgeschriebenen Vorgänge im Bereich „Bereinigungsschritte“ angezeigt, wie im folgenden Screenshot dargestellt:

Screenshot: Angewandter Data Wrangler-Vorgang

Tipp

Den zuletzt angewendeten Schritt können Sie jederzeit rückgängigmachen. Im Bereich „Bereinigungsschritte“ wird ein Papierkorbsymbol angezeigt, wenn Sie mit dem Mauszeiger auf den zuletzt angewendeten Schritt zeigen, wie im folgenden Screenshot gezeigt:

Screenshot: Data Wrangler-Vorgang, der rückgängig gemacht werden kann

In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:

Vorgang Beschreibung
Sort Sortieren in auf- oder absteigender Reihenfolge
Filter Filtern von Zeilen basierend auf einer oder mehreren Bedingungen
One-Hot-Codieren Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben
One-Hot-Codieren mit Trennzeichen Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens
Spaltentyp ändern Ändern des Datentyps einer Spalte
Spalte löschen Löschen einer oder mehrerer Spalten
Spalte auswählen Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten
Spalte umbenennen Umbenennen einer Spalte
Fehlende Werte löschen Entfernen von Zeilen mit fehlenden Werten
Doppelte Zeilen löschen Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten
Fehlende Werte auffüllen Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert
Suchen und Ersetzen Ersetzen von Zellen durch ein genau übereinstimmendes Muster
Nach Spalte und Aggregat gruppieren Gruppieren nach Spaltenwerten und Aggregatergebnissen
Leerzeichen entfernen Entfernen von Leerzeichen am Anfang und Ende des Texts
Text aufteilen Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen
Text in Kleinbuchstaben konvertieren Konvertieren des Texts in Kleinbuchstaben
Text in Großbuchstaben konvertieren Konvertieren des Texts in Großbuchstaben
Mindest- und Maximalwerte skalieren Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert
Blitzvorschau Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind

Ändern der Anzeige

Die Benutzeroberfläche können Sie jederzeit über die Registerkarte „Ansichten“ in der Symbolleiste über dem Anzeigeraster von Daten-Wrangler anpassen. Je nach Präferenzen und Bildschirmgröße lassen sich verschiedene Bereiche ausblenden oder anzeigen, wie im folgenden Screenshot dargestellt:

Screenshot des Menüs „Data Wrangler“ zum Anpassen der Anzeigeansicht.

Speichern und Exportieren von Code

Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können den bereinigten DataFrame auch als csv-Datei herunterladen.

Tipp

Data Wrangler generiert Code, der nur dann angewendet wird, wenn Sie die neue Zelle manuell ausführen. Das ursprüngliche DataFrame-Element wird nicht überschreiben, wie im folgenden Screenshot gezeigt:

Screenshot: Optionen zum Exportieren von Code in Data Wrangler

Anschließend können Sie diesen exportierten Code ausführen, wie im folgenden Screenshot dargestellt:

Screenshot: Der durch Data Wrangler generierte Code im Notebook