Udostępnij za pośrednictwem


How to use Data Wrangler on Spark DataFrames

Usługa Data Wrangler, narzędzie oparte na notesach do eksploracyjnej analizy danych, obsługuje teraz zarówno ramki danych Platformy Spark, jak i ramki danych pandas. Generuje on kod PySpark oprócz kodu w języku Python. Aby zapoznać się z ogólnym omówieniem platformy Data Wrangler, opisem sposobu eksplorowania i przekształcania ramek danych biblioteki pandas, odwiedź główny samouczek. W tym samouczku pokazano, jak używać narzędzia Data Wrangler do eksplorowania i przekształcania ramek danych platformy Spark.

Wymagania wstępne

  • Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.

  • Zaloguj się do usługi Microsoft Fabric.

  • Użyj przełącznika środowiska po lewej stronie głównej, aby przełączyć się na środowisko usługi Synapse Nauka o danych.

    Zrzut ekranu przedstawiający menu przełącznika środowiska pokazujące, gdzie wybrać Nauka o danych.

Ograniczenia

  • Niestandardowe operacje kodu są obecnie obsługiwane tylko dla ramek danych biblioteki pandas.
  • Wyświetlacz Data Wrangler działa najlepiej na dużych monitorach, chociaż można zminimalizować lub ukryć różne części interfejsu, aby pomieścić mniejsze ekrany.

Uruchamianie elementu Data Wrangler za pomocą ramki danych Spark

Użytkownicy mogą otwierać ramki danych platformy Spark w narzędziu Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, przechodząc do tego samego monitu listy rozwijanej, w którym są wyświetlane ramki danych pandas. Lista aktywnych ramek danych platformy Spark jest wyświetlana na liście rozwijanej poniżej listy aktywnych zmiennych pandas.

Ten fragment kodu tworzy ramkę danych platformy Spark z tymi samymi przykładowymi danymi używanymi w samouczku biblioteki pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Na karcie "Narzędzia główne" na wstążce notesu użyj monitu rozwijanego Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.

Napiwek

Nie można otworzyć narzędzia Wrangler danych, gdy jądro notesu jest zajęte. Wykonanie komórki musi zakończyć wykonywanie przed uruchomieniem narzędzia Data Wrangler, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający notes usługi Fabric z monitem listy rozwijanej Data Wrangler.

Wybieranie przykładów niestandardowych

Usługa Data Wrangler automatycznie konwertuje ramki danych Platformy Spark na przykłady biblioteki pandas ze względu na wydajność. Jednak cały kod generowany przez narzędzie jest ostatecznie tłumaczony na PySpark podczas eksportowania z powrotem do notesu. Podobnie jak w przypadku dowolnej ramki danych biblioteki pandas, możesz dostosować domyślny przykład. Aby otworzyć niestandardowy przykład dowolnej aktywnej ramki danych z elementem Data Wrangler, wybierz z listy rozwijanej pozycję "Wybierz przykład niestandardowy", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający monit listy rozwijanej Data Wrangler z opisaną opcją przykładu niestandardowego.

Spowoduje to uruchomienie wyskakującego okienka z opcjami określającymi rozmiar żądanej próbki (liczba wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub zestaw losowy), jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający niestandardowy monit dotyczący przykładu usługi Data Wrangler.

Wyświetlanie statystyk podsumowania

Podczas ładowania elementu Data Wrangler jest wyświetlany baner informacyjny powyżej siatki podglądu. Ten baner wyjaśnia, że ramki danych platformy Spark są tymczasowo konwertowane na próbki biblioteki pandas, ale cały wygenerowany kod zostanie ostatecznie przekonwertowany na PySpark. W przeszłości używanie elementu Data Wrangler w ramkach danych platformy Spark nie różni się od używania go w ramkach danych biblioteki pandas. Opisowy przegląd w panelu "Podsumowanie" zawiera informacje o wymiarach przykładu, brakujących wartościach i nie tylko. Wybór dowolnej kolumny w siatce Wrangler danych monituje panel "Podsumowanie", aby zaktualizować i wyświetlić opisowe statystyki dotyczące tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.

Napiwek

Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu "Podsumowanie", jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład w nagłówku kolumny liczbowej pojawi się histogram binned, tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający siatkę wyświetlania usługi Data Wrangler i panel Podsumowanie.

Przeglądanie operacji czyszczenia danych

Listę kroków czyszczenia danych można znaleźć na panelu "Operacje". W panelu "Operacje" wybór kroku czyszczenia danych wyświetla monit o podanie kolumny docelowej lub kolumn wraz z wszelkimi wymaganymi parametrami do ukończenia kroku. Na przykład monit o liczbowe skalowanie kolumny wymaga nowego zakresu wartości, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający panel Operacje platformy Data Wrangler.

Napiwek

Możesz zastosować mniejszy wybór operacji z menu każdego nagłówka kolumny, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Wrangler danych, którą można zastosować z menu nagłówka kolumny.

Wyświetlanie podglądu i stosowanie operacji

Siatka wyświetlania elementu Data Wrangler automatycznie wyświetla wyniki wybranej operacji, a odpowiedni kod jest automatycznie wyświetlany w panelu poniżej siatki. Aby zatwierdzić podgląd kodu, wybierz pozycję "Zastosuj" w obu miejscach. Aby usunąć podgląd kodu i wypróbować nową operację, wybierz pozycję "Odrzuć", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Wrangler danych w toku.

Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu "Kroki czyszczenia", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający zastosowaną operację Wrangler danych.

Napiwek

Zawsze można cofnąć ostatnio zastosowany krok. W panelu "Kroki czyszczenia" zostanie wyświetlona ikona kosza, jeśli umieścisz kursor na tym ostatnio zastosowanym kroku, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Wrangler danych, którą można cofnąć.

Ta tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler:

Operacja Opis
Sortowanie Sortowanie kolumny w kolejności rosnącej lub malejącej
Filtr Filtrowanie wierszy na podstawie co najmniej jednego warunków
Kodowanie jednorazowe Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu
Kodowanie jednokrotne z ogranicznikiem Dzielenie i kodowanie jednokrotne danych kategorii przy użyciu ogranicznika
Zmienianie typu kolumny Zmienianie typu danych kolumny
Upuść kolumnę Usuń co najmniej jedną kolumnę
Wybieranie kolumny Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę
Zmienianie nazwy kolumny Zmienianie nazwy kolumny
Usuwanie brakujących wartości Usuwanie wierszy z brakującymi wartościami
Usuwanie zduplikowanych wierszy Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie
Wypełnianie brakujących wartości Zastąp komórki brakującymi wartościami nową wartością
Znajdowanie i zastępowanie Zastępowanie komórek dokładnym wzorcem dopasowania
Grupuj według kolumn i agregację Grupowanie według wartości kolumn i agregowanie wyników
Odstępy Usuń białe znaki od początku i końca tekstu
Podziel tekst Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika
Konwertowanie tekstu na małe litery Konwertowanie tekstu na małe litery
Konwertowanie tekstu na wielkie litery Konwertowanie tekstu na WIELKIE LITERY
Skalowanie wartości minimalnych/maksymalnych Skalowanie kolumny liczbowej między wartością minimalną i maksymalną
Wypełnienie błyskawiczne Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny

Modyfikowanie wyświetlania

W dowolnym momencie możesz dostosować interfejs za pomocą karty "Widoki" na pasku narzędzi znajdującym się nad siatką wyświetlania elementu Data Wrangler. Pozwala to ukryć lub pokazać różne okienka na podstawie preferencji i rozmiaru ekranu, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający menu Data Wrangler służące do dostosowywania widoku wyświetlania.

Zapisywanie i eksportowanie kodu

Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notesu jako funkcję. W przypadku ramek danych platformy Spark cały kod wygenerowany w przykładzie pandas jest tłumaczony na PySpark, zanim wróci do notesu. Przed zamknięciem elementu Data Wrangler narzędzie wyświetla podgląd przetłumaczonego kodu PySpark, a także udostępnia opcję eksportowania kodu pośredniej biblioteki pandas.

Napiwek

Funkcja Data Wrangler generuje kod, który jest stosowany tylko wtedy, gdy ręcznie uruchomisz nową komórkę i nie zastąpi oryginalnej ramki danych, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający opcje eksportowania kodu w narzędziu Data Wrangler.

Kod jest konwertowany na PySpark, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający podgląd PySpark w wierszu polecenia kodu eksportu w narzędziu Data Wrangler.

Następnie możesz uruchomić ten wyeksportowany kod, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający kod wygenerowany przez usługę Data Wrangler z powrotem w notesie.

  • Aby zapoznać się z omówieniem narzędzia Data Wrangler, odwiedź ten artykuł towarzyszący
  • Aby wypróbować narzędzie Data Wrangler w programie Visual Studio Code, przejdź do tematu Data Wrangler w programie VS Code
  • Czy brakowało nam potrzebnej funkcji? Powiedz nam o tym! Zasugeruj go na forum pomysłów na sieć szkieletową