Jaa


Data Wranglerin käyttäminen Spark DataFrames -kehyksissä

Muistikirjapohjainen data-analyysityökalu Data Wrangler tukee nyt sekä Spark DataFrame- että pandas DataFrames -kehyksiä. Se luo Python-koodin lisäksi PySpark-koodin. Jos haluat yleisen yleiskatsauksen Data Wranglerista ja siitä, miten pandas DataFrame -kehyksiä tutkitaan ja muunnat, siirry pääopetusohjelmaan. Tässä opetusohjelmassa kerrotaan, miten Voit käyttää Data Wrangleria Spark DataFrame -kehyksien tutkimiseen ja muuntamiseen.

Edellytykset

Rajoitukset

  • Mukautettuja kooditoimintoja tuetaan tällä hetkellä vain pandas DataFrames -kehyksissä.
  • Data Wrangler -näyttö toimii parhaiten suurissa näytöissä, mutta voit pienentää tai piilottaa käyttöliittymän eri osia pienille näytöille.

Data Wrangler -käynnistys Spark DataFramella

Käyttäjät voivat avata Spark DataFrames -ominaisuuden Data Wranglerissa suoraan Microsoft Fabric -muistikirjasta siirtymällä samaan avattavaan kehotteeseen, jossa pandas DataFrames näytetään. Aktiivisten Spark DataFrames -muuttujien luettelo näkyy avattavassa valikossa aktiivisten pandas-muuttujien luettelon alapuolella.

Tämä koodikatkelman luo Spark DataFramen samoilla mallitiedoilla, joita käytetään pandas Data Wrangler -opetusohjelmassa:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Käytä muistikirjan valintanauhan Aloitus-välilehdessä avattavaa Data Wrangler -kehotetta aktiivisten DataFrame-kehyksien selaamiseen muokkausta varten. Valitse Se, jonka haluat avata Data Wranglerissa.

Vihje

Data Wrangleria ei voi avata, kun muistikirjan ydin on varattu. Suoritettavan solun on suoritettava loppuun ennen kuin Data Wrangler voidaan käynnistää, kuten tässä näyttökuvassa näkyy:

Näyttökuva, jossa näkyy Fabric-muistikirja ja avattava Data Wrangler -kehote.

Mukautettujen mallien valitseminen

Data Wrangler muuntaa Spark DataFramesin automaattisesti pandas-näytteiksi suorituskykysyistä. Kaikki työkalun luoma koodi kuitenkin lopulta käännetään PySparkille, kun se viedään takaisin muistikirjaan. Kuten muutkin pandas DataFrame -kehykset, voit mukauttaa oletusmallia. Jos haluat avata mukautetun mallin mistä tahansa aktiivisesta DataFrame-kehyksestä Data Wranglerin avulla, valitse "Valitse mukautettu malli" avattavasta valikosta tämän näyttökuvan mukaisesti:

Näyttökuva, jossa näkyy avattava Data Wrangler -valikkokehote mukautettu malliasetus korostettuna.

Tämä käynnistää ponnahdusikkunan, jossa on asetukset halutun näytteen koon (rivien määrä) ja näytteenottomenetelmän (ensimmäiset tietueet, viimeiset tietueet tai satunnaisjoukko) määrittämiseksi seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Data Wranglerin mukautettu mallikehote.

Yhteenvetotilastojen tarkasteleminen

Kun Data Wrangler latautuu, se näyttää tietopalkin esikatseluruudukon yläpuolella. Tässä bannerissa kerrotaan, että Spark DataFrames muunnetaan tilapäisesti pandas-näytteiksi, mutta kaikki luotu koodi muunnetaan lopulta PySparkiksi. Tämän jälkeen Data Wrangler -toiminnon käyttäminen Spark DataFrame -kehyksissä ei eroa sen käyttämisestä pandas DataFrame -kehyksissä. Yhteenveto-paneelin kuvaava yleiskatsaus näyttää tietoja mallin dimensioista, puuttuvista arvoista ja niin edelleen. Kun valitset minkä tahansa Sarakkeen Data Wrangler -ruudukossa, Yhteenveto-paneeli päivittää ja näyttää kuvaavat tilastotiedot kyseisestä sarakkeesta. Nopeat merkitykselliset tiedot jokaisesta sarakkeesta ovat myös sen otsikossa.

Vihje

Sarakekohtaiset tilastotiedot ja visualisoinnit (sekä Yhteenveto-paneelissa että sarakeotsikoissa) riippuvat sarakkeen tietotyypistä. Esimerkiksi numeerisen sarakkeen lokeroitu histogrammi näkyy sarakeotsikossa vain, jos sarake on muuntettu numeeriseksi tyypiksi, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy Tietojen Wrangler-näyttöruudukko ja Yhteenveto-paneeli.

Tietojenpuhdistustoimintojen selaaminen

Hakukelpoisia tietojen puhdistusvaiheita on Toiminnot-paneelissa. Toiminnot-paneelissa tietojen siistimisvaiheen valinta kehottaa sinua antamaan kohdesarakkeen tai -sarakkeet sekä kaikki vaiheen suorittamiseen tarvittavat parametrit. Esimerkiksi kehote skaalata sarake numeerisesti edellyttää uutta arvoaluetta, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy Tietojen Wrangler-toiminnot -paneeli.

Vihje

Voit käyttää pienempää toimintovalikoimaa kunkin sarakeotsikon valikosta seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Tieto wrangler-toiminto, joka voidaan käyttää sarakeotsikon valikosta.

Toimintojen esikatselu ja käyttöönotto

Data Wrangler -näyttöruudukko esikatsele automaattisesti valitun toiminnon tuloksia, ja vastaava koodi näkyy automaattisesti ruudukon alla olevassa paneelissa. Vahvista esikatselemasi koodi valitsemalla kummassakin kohdassa Käytä. Jos haluat poistaa esikatselun koodin ja kokeilla uutta toimintoa, valitse Hylkää tässä näyttökuvassa esitetyllä tavalla:

Näyttökuva, joka näyttää käynnissä olevan Data Wrangler -toiminnon.

Kun toiminto on käytössä, Tietojen Wrangler-toiminnon näyttämisen ruudukko ja yhteenvetotilastot päivittyvät tulosten mukaisesti. Koodi näkyy varattujen toimintojen käynnissä olevassa luettelossa, joka sijaitsee "Puhdistusvaiheet"-paneelissa, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy käytössä oleva Data Wrangler -toiminto.

Vihje

Voit aina kumota viimeisimmän käytössä olevan vaiheen. Siistimisvaiheet -paneelissa näkyy roskakorikuvake, jos viet kohdistimen viimeksi käytetyn vaiheen päälle, kuten tässä näyttökuvassa on esitetty:

Näyttökuva, joka näyttää kumottavan Tietojen Wrangler-toiminnon.

Tässä taulukossa on yhteenveto toiminnoista, joita Data Wrangler tällä hetkellä tukee:

Toiminto Kuvaus
Lajittele Lajittele sarake nousevassa tai laskevassa järjestyksessä
Suodata Suodata rivit yhden tai useamman ehdon perusteella
Yksi kuuma koodaus Luo uudet sarakkeet kullekin olemassa olevan sarakkeen yksilöivälle arvolle, mikä ilmaisee, että kyseiset arvot riviä kohti ovat olemassa tai eivät ole.
Yhden kuuma koodaus ja erotin Luokittaiset ja jaetut koodaustiedot erottimen avulla
Muuta saraketyyppiä Sarakkeen tietotyypin muuttaminen
Sarakkeiden pudottaminen Yhden tai useamman sarakkeen poistaminen
Valitse sarake Valitse vähintään yksi sarake ja poista loput
Sarakkeen nimeäminen uudelleen Sarakkeen nimeäminen uudelleen
Jätä puuttuvat arvot pois Poista rivit, joilla on puuttuvia arvoja
Rivien kaksoiskappaleiden pudottaminen Pudota kaikki rivit, joilla on arvojen kaksoiskappaleita yhdessä tai useammassa sarakkeessa
Täytä puuttuvat arvot Korvaa solut puuttuvista arvoista uudella arvolla
Etsi ja korvaa Korvaa solut tarkalla vastaavalla mallilla
Ryhmittely sarakkeen ja koosteen mukaan Ryhmittely sarakkeen arvojen ja koostetulosten mukaan
Stripin välilyönnit Poista välilyönnit tekstin alusta ja lopusta
Tekstin jakaminen Jaa sarake useisiin sarakkeisiin käyttäjän määrittämän erottimen perusteella
Muunna teksti pieniksi kirjaimiksi Muunna teksti pieniksi kirjaimiksi
Muunna teksti isoilla kirjaimilla Muunna teksti ISOILLA KIRJAIMILLA
Skaalaa minimi-/maksimiarvot Skaalaa numeerinen sarake minimi- ja maksimiarvon välille
Flash-täyttö Luo uusi sarake automaattisesti olemassa olevasta sarakkeesta johdettujen esimerkkien perusteella

Näytön muokkaaminen

Voit milloin tahansa mukauttaa -käyttöliittymää Data Wrangler -näyttöruudukon yläpuolella olevan työkalurivin Näkymät-välilehdellä. Tämä voi piilottaa tai näyttää eri ruutuja asetusten ja näytön koon mukaan seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Tietojen Wrangler -valikko näyttönäkymän mukauttamista varten.

Koodin tallentaminen ja vieminen

Data Wrangler -näyttöruudukon yläpuolella olevalla työkalurivillä on vaihtoehtoja luodun koodin tallentamiseksi. Voit kopioida koodin leikepöydälle tai viedä sen muistikirjaan funktiona. Spark DataFramesin kohdalla pandas-otokseen luotu kaikki koodi käännetään PySparkille ennen kuin se laskeutuu takaisin muistikirjaan. Ennen kuin Data Wrangler sulkeutuu, työkalu näyttää esikatselun käännetystä PySpark-koodista, ja se tarjoaa myös mahdollisuuden viedä välipandakoodi.

Vihje

Data Wrangler luo koodin, jota käytetään vain, kun suoritat uuden solun manuaalisesti, eikä se korvaa alkuperäistä DataFrame-kehystä tässä näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyvät vaihtoehdot koodin viemiseksi Data Wranglerissa.

Koodi muunnetaan PySpark-kentäksi seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy PySpark-esikatselu vientikoodin kehotteessa Data Wranglerissa.

Voit sitten suorittaa viedyn koodin seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Data Wranglerin luoma koodi muistikirjassa.