Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric

Artikel
08/16/2024

Beim Tool Data Wrangler handelt es sich um eine notebookbasierte Ressource, die eine immersive Schnittstelle für die explorative Datenanalyse bietet. Sie vereint eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek mit allgemeinen Datenbereinigungsvorgängen. Die einzelnen Vorgänge lassen sich mit wenigen Schritten durchführen. Sie können die Datenanzeige in Echtzeit aktualisieren und Code in Pandas oder PySpark generieren. Dieser Code kann als wiederverwendbare Funktion im Notebook gespeichert werden. In diesem Artikel liegt der Schwerpunkt auf dem Untersuchen und Transformieren von Pandas-DataFrames. Weitere Informationen zur Nutzung von Data Wrangler in Spark-DataFrames finden Sie in dieser Ressource.

Voraussetzungen

Erwerben Sie ein Microsoft Fabric-Abonnement. Registrieren Sie sich alternativ für eine kostenlose Microsoft Fabric-Testversion.
Melden Sie sich bei Microsoft Fabric an.
Verwenden Sie den Erfahrungsschalter unten links auf Ihrer Startseite, um zu Fabric zu wechseln.

Begrenzungen

Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Nutzung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.

Data Wrangler starten

Sie können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um Pandas oder Spark Dataframes zu untersuchen und zu transformieren. Weitere Informationen zur Nutzung von Data Wrangler mit Spark-DataFrames finden Sie in diesem Begleitartikel. Der folgende Codeschnipsel zeigt, wie Stichprobendaten in einen Pandas-DataFrame eingelesen werden können:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Verwenden Sie auf der Registerkarte „Start“ des Notebookmenübands die Dropdown-Aufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren DataFrames zu durchsuchen. Wählen Sie denjenigen aus, den Sie in Data Wrangler öffnen möchten.

Tipp

Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen sein, bevor Data Wrangler gestartet werden kann, wie im folgenden Screenshot dargestellt:

Auswählen von benutzerdefinierten Beispielen

Zum Öffnen einer benutzerdefinierten Stichprobe eines aktiven DataFrame mit Date Wrangler wählen Sie im Dropdownmenü die Option „Benutzerdefinierte Stichprobe wählen“ aus, wie im folgenden Screenshot dargestellt:

Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können. Die ersten 5.000 Zeilen des DataFrame dienen als Standard-Stichprobengröße, wie im folgenden Screenshot gezeigt:

Anzeigen von Zusammenfassungsstatistiken

Wenn Data Wrangler geladen wird, zeigt es eine beschreibende Übersicht über den gewählten DataFrame im Bereich „Zusammenfassung“ an. Diese Übersicht enthält u. a. Informationen zu den DataeFrame-Dimensionen und zu fehlenden Werten. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Bereich „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zur betreffenden Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.

Tipp

Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird, wie im folgenden Screenshot dargestellt:

Durchsuchen von Datenbereinigungsvorgängen

Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Bei der Aufforderung zur numerischen Skalierung ist beispielsweise ein neuer Wertebereich erforderlich, wie im folgenden Screenshot gezeigt:

Tipp

Sie können eine kleinere Auswahl von Vorgängen aus dem Menü der einzelnen Spaltenüberschriften anwenden, wie im folgenden Screenshot dargestellt:

Anzeigen der Vorschau und Anwenden von Vorgängen

Die Ergebnisse eines ausgewählten Vorgangs werden im Data Wrangler-Anzeigeraster automatisch in der Vorschau angezeigt, und der entsprechende Code erscheint automatisch in dem Bereich unter dem Raster. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den in der Vorschau angezeigten Code zu löschen und einen neuen Vorgang auszuprobieren, wählen Sie „Verwerfen“ aus, wie im folgenden Screenshot gezeigt:

Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der laufenden Liste der festgeschriebenen Vorgänge im Bereich „Bereinigungsschritte“ angezeigt, wie im folgenden Screenshot dargestellt:

Tipp

Den zuletzt angewendeten Schritt können Sie jederzeit rückgängigmachen. Im Bereich „Bereinigungsschritte“ wird ein Papierkorbsymbol angezeigt, wenn Sie mit dem Mauszeiger auf den zuletzt angewendeten Schritt zeigen, wie im folgenden Screenshot gezeigt:

In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:

Vorgang	Beschreibung
Sort	Sortieren in auf- oder absteigender Reihenfolge
Filter	Filtern von Zeilen basierend auf einer oder mehreren Bedingungen
One-Hot-Codieren	Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben
One-Hot-Codieren mit Trennzeichen	Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens
Spaltentyp ändern	Ändern des Datentyps einer Spalte
Spalte löschen	Löschen einer oder mehrerer Spalten
Spalte auswählen	Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten
Spalte umbenennen	Umbenennen einer Spalte
Fehlende Werte löschen	Entfernen von Zeilen mit fehlenden Werten
Doppelte Zeilen löschen	Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten
Fehlende Werte auffüllen	Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert
Suchen und Ersetzen	Ersetzen von Zellen durch ein genau übereinstimmendes Muster
Nach Spalte und Aggregat gruppieren	Gruppieren nach Spaltenwerten und Aggregatergebnissen
Leerzeichen entfernen	Entfernen von Leerzeichen am Anfang und Ende des Texts
Text aufteilen	Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen
Text in Kleinbuchstaben konvertieren	Konvertieren des Texts in Kleinbuchstaben
Text in Großbuchstaben konvertieren	Konvertieren des Texts in Großbuchstaben
Mindest- und Maximalwerte skalieren	Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert
Blitzvorschau	Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind

Ändern der Anzeige

Die Benutzeroberfläche können Sie jederzeit über die Registerkarte „Ansichten“ in der Symbolleiste über dem Anzeigeraster von Daten-Wrangler anpassen. Je nach Präferenzen und Bildschirmgröße lassen sich verschiedene Bereiche ausblenden oder anzeigen, wie im folgenden Screenshot dargestellt:

Speichern und Exportieren von Code

Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können den bereinigten DataFrame auch als csv-Datei herunterladen.

Tipp

Data Wrangler generiert Code, der nur dann angewendet wird, wenn Sie die neue Zelle manuell ausführen. Das ursprüngliche DataFrame-Element wird nicht überschreiben, wie im folgenden Screenshot gezeigt:

Anschließend können Sie diesen exportierten Code ausführen, wie im folgenden Screenshot dargestellt:

Informationen zum Ausprobieren von Data Wrangler in Spark-DataFrames finden Sie in diesem Begleitartikel.
Um eine Live-Demo von Data Wrangler in Fabric zu erhalten, schauen Sie sich dieses Video von unseren Freunden bei Guy in a Cube an.
Informationen zum Testen von Data Wrangler in Visual Studio Code finden Sie unter Data Wrangler in VS Code.
Ist uns ein Feature entgangen, das Sie benötigen? Schreiben Sie uns. Schlagen Sie es im Forum für Fabric-Ideen vor.

Freigeben über

Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric

Voraussetzungen

Begrenzungen

Data Wrangler starten

Auswählen von benutzerdefinierten Beispielen

Anzeigen von Zusammenfassungsstatistiken

Durchsuchen von Datenbereinigungsvorgängen

Anzeigen der Vorschau und Anwenden von Vorgängen

Ändern der Anzeige

Speichern und Exportieren von Code

Feedback

Zusätzliche Ressourcen

Freigeben über

Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric

Voraussetzungen

Begrenzungen

Data Wrangler starten

Auswählen von benutzerdefinierten Beispielen

Anzeigen von Zusammenfassungsstatistiken

Durchsuchen von Datenbereinigungsvorgängen

Anzeigen der Vorschau und Anwenden von Vorgängen

Ändern der Anzeige

Speichern und Exportieren von Code

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen