Jak používat data Wrangler v datových rámcích Sparku

Článek
08/14/2024

Data Wrangler, nástroj založený na poznámkových blocích pro průzkumnou analýzu dat, teď podporuje datové rámce Sparku i datové rámce pandas. Kromě kódu Pythonu generuje kód PySpark. Obecný přehled služby Data Wrangler, který popisuje, jak prozkoumat a transformovat datové rámce pandas, najdete v hlavním kurzu. V tomto kurzu se dozvíte, jak pomocí služby Data Wrangler prozkoumat a transformovat datové rámce Sparku.

Požadavky

Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače prostředí v levém dolním rohu domovské stránky přepněte na Fabric.

Omezení

Operace s vlastním kódem jsou v současné době podporovány pouze pro datové rámce pandas.
Zobrazení Wrangler dat funguje nejlépe na velkých monitorech, i když můžete minimalizovat nebo skrýt různé části rozhraní, aby se přizpůsobily menším obrazovkám.

Spuštění transformace dat pomocí datového rámce Spark

Uživatelé můžou otevřít datové rámce Sparku v objektu Data Wrangler přímo z poznámkového bloku Microsoft Fabric, a to tak, že přejdou na stejnou rozevírací nabídku, ve které se zobrazí datové rámce pandas. V rozevíracím seznamu pod seznamem aktivních proměnných pandas se zobrazí seznam aktivních datových rámců Sparku.

Tento fragment kódu vytvoří datový rámec Sparku se stejnými ukázkovými daty použitými v kurzu o transformaci dat pandas:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Na kartě Domů na pásu karet poznámkového bloku pomocí rozevíracího seznamu Transformace dat můžete procházet aktivní datové rámce, které jsou k dispozici pro úpravy. Vyberte ten, který chcete otevřít ve službě Data Wrangler.

Tip

V době, kdy je jádro poznámkového bloku zaneprázdněné, nelze otevřít rozhraní Wrangler dat. Spuštěná buňka musí dokončit své spuštění před spuštěním služby Data Wrangler, jak je znázorněno na tomto snímku obrazovky:

Výběr vlastních ukázek

Data Wrangler automaticky převede datové rámce Sparku na ukázky pandas z důvodů výkonu. Veškerý kód, který nástroj vygeneruje, se ale při exportu zpět do poznámkového bloku nakonec přeloží do PySparku. Stejně jako u jakéhokoli datového rámce pandas můžete přizpůsobit výchozí ukázku. Pokud chcete otevřít vlastní ukázku libovolného aktivního datového rámce s objektem Data Wrangler, vyberte v rozevíracím seznamu možnost Zvolit vlastní ukázku, jak je znázorněno na tomto snímku obrazovky:

Spustí se automaticky otevírané okno s možnostmi pro určení velikosti požadovaného vzorku (počtu řádků) a metody vzorkování (první záznamy, poslední záznamy nebo náhodná sada), jak je znázorněno na tomto snímku obrazovky:

Zobrazení souhrnných statistik

Když se data Wrangler načte, zobrazí se nad mřížkou náhledu informační banner. Tento banner vysvětluje, že datové rámce Sparku se dočasně převedou na ukázky pandas, ale veškerý vygenerovaný kód se nakonec převede na PySpark. V minulosti se použití transformace dat v datových rámcích Sparku neliší od jeho použití v datových rámcích pandas. Popisný přehled na panelu Souhrn zobrazuje informace o rozměrech vzorku, chybějících hodnotách a dalších. Výběr libovolného sloupce v mřížce transformace dat vyzve panel Souhrn k aktualizaci a zobrazení popisných statistik o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.

Tip

Statistiky a vizuály specifické pro sloupce (jak na panelu Souhrn, tak v záhlaví sloupců) závisí na datovém typu sloupce. Například binovaný histogram číselného sloupce se zobrazí v záhlaví sloupce jenom v případě, že se sloupec přetypuje jako číselný typ, jak je znázorněno na tomto snímku obrazovky:

Operace čištění dat procházením

Prohledávatelný seznam kroků čištění dat najdete na panelu Operace. Na panelu Operace vás výběr kroku čištění dat vyzve k zadání cílového sloupce nebo sloupců spolu s potřebnými parametry pro dokončení kroku. Například výzva k číselnému škálování sloupce vyžaduje nový rozsah hodnot, jak je znázorněno na tomto snímku obrazovky:

Tip

V nabídce záhlaví každého sloupce můžete použít menší výběr operací, jak je znázorněno na tomto snímku obrazovky:

Zobrazení náhledu a použití operací

Mřížka transformace dat automaticky zobrazí náhled výsledků vybrané operace a odpovídající kód se automaticky zobrazí na panelu pod mřížkou. Náhled kódu potvrdíte tak, že na libovolném místě vyberete Použít. Pokud chcete odstranit náhled kódu a vyzkoušet novou operaci, vyberte Zahodit, jak je znázorněno na tomto snímku obrazovky:

Po použití operace se zobrazí mřížka a souhrnná statistika služby Data Wrangler, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací umístěných na panelu "Kroky čištění", jak je znázorněno na tomto snímku obrazovky:

Tip

Poslední použitý krok můžete kdykoli vrátit zpět. Na panelu "Kroky čištění" se zobrazí ikona koše, pokud najedete kurzorem na naposledy použitý krok, jak je znázorněno na tomto snímku obrazovky:

Tato tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje:

Operace	Popis
Sort	Seřazení sloupce ve vzestupném nebo sestupném pořadí
Filtr	Filtrování řádků na základě jedné nebo více podmínek
Kódování s jedním horkým kódováním	Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek.
Kódování s jedním horkým kódem s oddělovačem	Rozdělení a kódování kategorických dat s jedním horkým kódováním pomocí oddělovače
Změna typu sloupce	Změna datového typu sloupce
Drop column	Odstranění jednoho nebo více sloupců
Vybrat sloupec	Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte.
Přejmenovat sloupec	Přejmenování sloupce
Vyřazení chybějících hodnot	Odebrání řádků s chybějícími hodnotami
Přetažení duplicitních řádků	Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích
Vyplnění chybějících hodnot	Nahrazení buněk chybějícími hodnotami novou hodnotou
Vyhledání a nahrazení	Nahrazení buněk přesným vzorem porovnávání
Seskupení podle sloupce a agregace	Seskupení podle hodnot sloupců a agregovaných výsledků
Pruh prázdných znaků	Odebrání prázdných znaků od začátku a konce textu
Rozdělení textu	Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače
Převod textu na malá písmena	Převod textu na malá písmena
Převod textu na velká písmena	Převod textu na VELKÁ PÍSMENA
Škálování minimálních a maximálních hodnot	Škálování číselného sloupce mezi minimální a maximální hodnotou
Dynamické doplňování	Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce

Úprava zobrazení

Rozhraní můžete kdykoli přizpůsobit pomocí karty Zobrazení na panelu nástrojů umístěným nad mřížkou zobrazení Transformace dat. Můžete tak skrýt nebo zobrazit různá podokna podle vašich předvoleb a velikosti obrazovky, jak je znázorněno na tomto snímku obrazovky:

Ukládání a export kódu

Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. U datových rámců Sparku se veškerý kód vygenerovaný v ukázce pandas před návratem do poznámkového bloku přeloží do PySparku. Před zavřením nástroje Data Wrangler zobrazí náhled přeloženého kódu PySpark a nabízí také možnost exportu zprostředkujícího kódu pandas.

Tip

Služba Wrangler dat generuje kód, který se použije jenom při ručním spuštění nové buňky, a nepřepíše původní datový rámec, jak je znázorněno na tomto snímku obrazovky:

Kód se převede na PySpark, jak je znázorněno na tomto snímku obrazovky:

Pak můžete tento exportovaný kód spustit, jak je znázorněno na tomto snímku obrazovky:

Přehled služby Data Wrangler najdete v tomto doprovodného článku.
Pokud chcete vyzkoušet transformaci dat v editoru Visual Studio Code, přejděte do služby Data Wrangler ve VS Code.
Chybí nám funkce, kterou potřebujete? Dejte nám vědět! Navrhněte ji na fóru Nápady na prostředky infrastruktury

Sdílet prostřednictvím

Jak používat data Wrangler v datových rámcích Sparku

Požadavky

Omezení

Spuštění transformace dat pomocí datového rámce Spark

Výběr vlastních ukázek

Zobrazení souhrnných statistik

Operace čištění dat procházením

Zobrazení náhledu a použití operací

Úprava zobrazení

Ukládání a export kódu

Váš názor

Další materiály

Sdílet prostřednictvím

Jak používat data Wrangler v datových rámcích Sparku

Požadavky

Omezení

Spuštění transformace dat pomocí datového rámce Spark

Výběr vlastních ukázek

Zobrazení souhrnných statistik

Operace čištění dat procházením

Zobrazení náhledu a použití operací

Úprava zobrazení

Ukládání a export kódu

Související obsah

Váš názor

Další materiály