Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric
Beim Tool Data Wrangler handelt es sich um eine notebookbasierte Ressource, die eine immersive Schnittstelle für die explorative Datenanalyse bietet. Sie vereint eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek mit allgemeinen Datenbereinigungsvorgängen. Die einzelnen Vorgänge lassen sich mit wenigen Schritten durchführen. Sie können die Datenanzeige in Echtzeit aktualisieren und Code in Pandas oder PySpark generieren. Dieser Code kann als wiederverwendbare Funktion im Notebook gespeichert werden. In diesem Artikel liegt der Schwerpunkt auf dem Untersuchen und Transformieren von Pandas-DataFrames. Weitere Informationen zur Nutzung von Data Wrangler in Spark-DataFrames finden Sie in dieser Ressource.
Voraussetzungen
Erwerben Sie ein Microsoft Fabric-Abonnement. Registrieren Sie sich alternativ für eine kostenlose Microsoft Fabric-Testversion.
Melden Sie sich bei Microsoft Fabric an.
Wechseln Sie zur Synapse-Data Science-Benutzeroberfläche, indem Sie den Umschalter für die Benutzeroberfläche auf der linken Seite Ihrer Homepage verwenden.
Begrenzungen
- Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
- Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Nutzung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.
Data Wrangler starten
Sie können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um Pandas oder Spark Dataframes zu untersuchen und zu transformieren. Weitere Informationen zur Nutzung von Data Wrangler mit Spark-DataFrames finden Sie in diesem Begleitartikel. Der folgende Codeschnipsel zeigt, wie Stichprobendaten in einen Pandas-DataFrame eingelesen werden können:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Verwenden Sie auf der Registerkarte „Start“ des Notebookmenübands die Dropdown-Aufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren DataFrames zu durchsuchen. Wählen Sie denjenigen aus, den Sie in Data Wrangler öffnen möchten.
Tipp
Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen sein, bevor Data Wrangler gestartet werden kann, wie im folgenden Screenshot dargestellt:
Auswählen von benutzerdefinierten Beispielen
Zum Öffnen einer benutzerdefinierten Stichprobe eines aktiven DataFrame mit Date Wrangler wählen Sie im Dropdownmenü die Option „Benutzerdefinierte Stichprobe wählen“ aus, wie im folgenden Screenshot dargestellt:
Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können. Die ersten 5.000 Zeilen des DataFrame dienen als Standard-Stichprobengröße, wie im folgenden Screenshot gezeigt:
Anzeigen von Zusammenfassungsstatistiken
Wenn Data Wrangler geladen wird, zeigt es eine beschreibende Übersicht über den gewählten DataFrame im Bereich „Zusammenfassung“ an. Diese Übersicht enthält u. a. Informationen zu den DataeFrame-Dimensionen und zu fehlenden Werten. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Bereich „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zur betreffenden Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.
Tipp
Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird, wie im folgenden Screenshot dargestellt:
Durchsuchen von Datenbereinigungsvorgängen
Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Bei der Aufforderung zur numerischen Skalierung ist beispielsweise ein neuer Wertebereich erforderlich, wie im folgenden Screenshot gezeigt:
Tipp
Sie können eine kleinere Auswahl von Vorgängen aus dem Menü der einzelnen Spaltenüberschriften anwenden, wie im folgenden Screenshot dargestellt:
Anzeigen der Vorschau und Anwenden von Vorgängen
Die Ergebnisse eines ausgewählten Vorgangs werden im Data Wrangler-Anzeigeraster automatisch in der Vorschau angezeigt, und der entsprechende Code erscheint automatisch in dem Bereich unter dem Raster. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den in der Vorschau angezeigten Code zu löschen und einen neuen Vorgang auszuprobieren, wählen Sie „Verwerfen“ aus, wie im folgenden Screenshot gezeigt:
Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der laufenden Liste der festgeschriebenen Vorgänge im Bereich „Bereinigungsschritte“ angezeigt, wie im folgenden Screenshot dargestellt:
Tipp
Den zuletzt angewendeten Schritt können Sie jederzeit rückgängigmachen. Im Bereich „Bereinigungsschritte“ wird ein Papierkorbsymbol angezeigt, wenn Sie mit dem Mauszeiger auf den zuletzt angewendeten Schritt zeigen, wie im folgenden Screenshot gezeigt:
In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:
Vorgang | Beschreibung |
---|---|
Sort | Sortieren in auf- oder absteigender Reihenfolge |
Filter | Filtern von Zeilen basierend auf einer oder mehreren Bedingungen |
One-Hot-Codieren | Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben |
One-Hot-Codieren mit Trennzeichen | Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens |
Spaltentyp ändern | Ändern des Datentyps einer Spalte |
Spalte löschen | Löschen einer oder mehrerer Spalten |
Spalte auswählen | Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten |
Spalte umbenennen | Umbenennen einer Spalte |
Fehlende Werte löschen | Entfernen von Zeilen mit fehlenden Werten |
Doppelte Zeilen löschen | Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten |
Fehlende Werte auffüllen | Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert |
Suchen und Ersetzen | Ersetzen von Zellen durch ein genau übereinstimmendes Muster |
Nach Spalte und Aggregat gruppieren | Gruppieren nach Spaltenwerten und Aggregatergebnissen |
Leerzeichen entfernen | Entfernen von Leerzeichen am Anfang und Ende des Texts |
Text aufteilen | Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen |
Text in Kleinbuchstaben konvertieren | Konvertieren des Texts in Kleinbuchstaben |
Text in Großbuchstaben konvertieren | Konvertieren des Texts in Großbuchstaben |
Mindest- und Maximalwerte skalieren | Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert |
Blitzvorschau | Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind |
Ändern der Anzeige
Die Benutzeroberfläche können Sie jederzeit über die Registerkarte „Ansichten“ in der Symbolleiste über dem Anzeigeraster von Daten-Wrangler anpassen. Je nach Präferenzen und Bildschirmgröße lassen sich verschiedene Bereiche ausblenden oder anzeigen, wie im folgenden Screenshot dargestellt:
Speichern und Exportieren von Code
Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können den bereinigten DataFrame auch als csv-Datei herunterladen.
Tipp
Data Wrangler generiert Code, der nur dann angewendet wird, wenn Sie die neue Zelle manuell ausführen. Das ursprüngliche DataFrame-Element wird nicht überschreiben, wie im folgenden Screenshot gezeigt:
Anschließend können Sie diesen exportierten Code ausführen, wie im folgenden Screenshot dargestellt:
Zugehöriger Inhalt
- Informationen zum Ausprobieren von Data Wrangler in Spark-DataFrames finden Sie in diesem Begleitartikel.
- Um eine Live-Demo von Data Wrangler in Fabric zu erhalten, schauen Sie sich dieses Video von unseren Freunden bei Guy in a Cube an.
- Informationen zum Testen von Data Wrangler in Visual Studio Code finden Sie unter Data Wrangler in VS Code.
- Ist uns ein Feature entgangen, das Sie benötigen? Schreiben Sie uns. Schlagen Sie es im Forum für Fabric-Ideen vor.