Jak przyspieszyć przygotowywanie danych za pomocą narzędzia Data Wrangler w usłudze Microsoft Fabric
Narzędzie Data Wrangler to zasób oparty na notesie, który udostępnia immersyjny interfejs do eksploracyjnej analizy danych. Łączy ona wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania, wbudowanymi wizualizacjami i biblioteką typowych operacji czyszczenia danych. Każdą operację można zastosować, wykonując kilka kroków. Możesz zaktualizować wyświetlanie danych w czasie rzeczywistym i wygenerować kod w bibliotece pandas lub PySpark, który można zapisać z powrotem do notesu jako funkcję wielokrotnego użytku. Ten artykuł koncentruje się na eksploracji i przekształcaniu ramek danych biblioteki pandas. Aby uzyskać więcej informacji na temat korzystania z elementu Data Wrangler w ramkach danych platformy Spark, odwiedź ten zasób.
Wymagania wstępne
Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.
Zaloguj się do usługi Microsoft Fabric.
Użyj przełącznika środowiska w lewej dolnej części strony głównej, aby przełączyć się na Fabric.
Ograniczenia
- Niestandardowe operacje kodu są obecnie obsługiwane tylko dla ramek danych biblioteki pandas.
- Wyświetlacz Data Wrangler działa najlepiej na dużych monitorach, chociaż można zminimalizować lub ukryć różne części interfejsu, aby pomieścić mniejsze ekrany.
Uruchamianie narzędzia Data Wrangler
Możesz uruchomić narzędzie Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, aby eksplorować i przekształcać dowolne biblioteki pandas lub Spark DataFrame. Aby uzyskać więcej informacji na temat korzystania z elementu Data Wrangler z ramkami danych platformy Spark, odwiedź ten artykuł towarzyszący. Ten fragment kodu przedstawia sposób odczytywania przykładowych danych do ramki danych biblioteki pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Na karcie "Narzędzia główne" na wstążce notesu użyj monitu rozwijanego Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.
Napiwek
Nie można otworzyć narzędzia Wrangler danych, gdy jądro notesu jest zajęte. Wykonanie komórki musi zakończyć wykonywanie przed uruchomieniem narzędzia Data Wrangler, jak pokazano na poniższym zrzucie ekranu:
Wybieranie przykładów niestandardowych
Aby otworzyć niestandardowy przykład dowolnej aktywnej ramki danych z elementem Data Wrangler, wybierz z listy rozwijanej pozycję "Wybierz przykład niestandardowy", jak pokazano na poniższym zrzucie ekranu:
Spowoduje to uruchomienie wyskakującego okienka z opcjami określającymi rozmiar żądanej próbki (liczbę wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub losowy zestaw). Pierwsze 5000 wierszy ramki danych służy jako domyślny rozmiar próbki, jak pokazano na poniższym zrzucie ekranu:
Wyświetlanie statystyk podsumowania
Podczas ładowania elementu Data Wrangler wyświetla opisowy przegląd wybranej ramki danych w panelu "Podsumowanie". To omówienie zawiera informacje o wymiarach ramki danych, ich brakujących wartościach i nie tylko. Wybór dowolnej kolumny w siatce Wrangler danych monituje panel "Podsumowanie", aby zaktualizować i wyświetlić opisowe statystyki dotyczące tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.
Napiwek
Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu "Podsumowanie", jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład w nagłówku kolumny liczbowej pojawia się histogram binned, tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy, jak pokazano na poniższym zrzucie ekranu:
Przeglądanie operacji czyszczenia danych
Listę kroków czyszczenia danych można znaleźć na panelu "Operacje". W panelu "Operacje" wybór kroku czyszczenia danych wyświetla monit o podanie kolumny docelowej lub kolumn wraz z wszelkimi wymaganymi parametrami do ukończenia kroku. Na przykład monit o liczbowe skalowanie kolumny wymaga nowego zakresu wartości, jak pokazano na poniższym zrzucie ekranu:
Napiwek
Możesz zastosować mniejszy wybór operacji z menu każdego nagłówka kolumny, jak pokazano na poniższym zrzucie ekranu:
Wyświetlanie podglądu i stosowanie operacji
Siatka wyświetlania elementu Data Wrangler automatycznie wyświetla wyniki wybranej operacji, a odpowiedni kod jest automatycznie wyświetlany w panelu poniżej siatki. Aby zatwierdzić podgląd kodu, wybierz pozycję "Zastosuj" w obu miejscach. Aby usunąć podgląd kodu i wypróbować nową operację, wybierz pozycję "Odrzuć", jak pokazano na poniższym zrzucie ekranu:
Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu "Kroki czyszczenia", jak pokazano na poniższym zrzucie ekranu:
Napiwek
Zawsze można cofnąć ostatnio zastosowany krok. W panelu "Kroki czyszczenia" zostanie wyświetlona ikona kosza, jeśli umieścisz kursor na tym ostatnio zastosowanym kroku, jak pokazano na poniższym zrzucie ekranu:
Ta tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler:
Operacja | Opis |
---|---|
Sortowanie | Sortowanie kolumny w kolejności rosnącej lub malejącej |
Filtr | Filtrowanie wierszy na podstawie co najmniej jednego warunków |
Kodowanie jednorazowe | Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu |
Kodowanie jednokrotne z ogranicznikiem | Dzielenie i kodowanie jednokrotne danych kategorii przy użyciu ogranicznika |
Zmienianie typu kolumny | Zmienianie typu danych kolumny |
Upuść kolumnę | Usuń co najmniej jedną kolumnę |
Wybieranie kolumny | Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę |
Zmienianie nazwy kolumny | Zmienianie nazwy kolumny |
Usuwanie brakujących wartości | Usuwanie wierszy z brakującymi wartościami |
Usuwanie zduplikowanych wierszy | Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie |
Wypełnianie brakujących wartości | Zastąp komórki brakującymi wartościami nową wartością |
Znajdowanie i zastępowanie | Zastępowanie komórek dokładnym wzorcem dopasowania |
Grupuj według kolumn i agregację | Grupowanie według wartości kolumn i agregowanie wyników |
Odstępy | Usuń białe znaki od początku i końca tekstu |
Podziel tekst | Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika |
Konwertowanie tekstu na małe litery | Konwertowanie tekstu na małe litery |
Konwertowanie tekstu na wielkie litery | Konwertowanie tekstu na WIELKIE LITERY |
Skalowanie wartości minimalnych/maksymalnych | Skalowanie kolumny liczbowej między wartością minimalną i maksymalną |
Wypełnienie błyskawiczne | Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny |
Modyfikowanie wyświetlania
W dowolnym momencie możesz dostosować interfejs za pomocą karty "Widoki" na pasku narzędzi znajdującym się nad siatką wyświetlania elementu Data Wrangler. Pozwala to ukryć lub pokazać różne okienka na podstawie preferencji i rozmiaru ekranu, jak pokazano na poniższym zrzucie ekranu:
Zapisywanie i eksportowanie kodu
Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notesu jako funkcję. Eksportowanie kodu powoduje zamknięcie narzędzia Data Wrangler i dodanie nowej funkcji do komórki kodu w notesie. Można również pobrać oczyszczoną ramkę danych jako plik csv.
Napiwek
Funkcja Data Wrangler generuje kod, który jest stosowany tylko wtedy, gdy ręcznie uruchomisz nową komórkę i nie zastąpi oryginalnej ramki danych, jak pokazano na poniższym zrzucie ekranu:
Następnie możesz uruchomić ten wyeksportowany kod, jak pokazano na poniższym zrzucie ekranu:
Powiązana zawartość
- Aby wypróbować platformę Data Wrangler na obiektach DataFrame platformy Spark, odwiedź ten artykuł towarzyszący
- Aby zapoznać się z pokazem na żywo danych Wrangler w sieci Szkieletowej, zapoznaj się z tym filmem od naszych przyjaciół w Guy in a Cube
- Aby wypróbować narzędzie Data Wrangler w programie Visual Studio Code, przejdź do tematu Data Wrangler w programie VS Code
- Czy brakowało nam potrzebnej funkcji? Powiedz nam o tym! Zasugeruj go na forum pomysłów na sieć szkieletową