Data Wranglerin käyttäminen Spark DataFrames -kehyksissä
Muistikirjapohjainen data-analyysityökalu Data Wrangler tukee nyt sekä Spark DataFrame- että pandas DataFrames -kehyksiä. Se luo Python-koodin lisäksi PySpark-koodin. Jos haluat yleisen yleiskatsauksen Data Wranglerista ja siitä, miten pandas DataFrame -kehyksiä tutkitaan ja muunnat, siirry pääopetusohjelmaan. Tässä opetusohjelmassa kerrotaan, miten Voit käyttää Data Wrangleria Spark DataFrame -kehyksien tutkimiseen ja muuntamiseen.
Edellytykset
Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä ilmaiseen Microsoft Fabric -kokeiluversioon.
Siirry Synapse Data Science -käyttökokemukseen aloitussivun vasemmassa reunassa olevan käyttökokemuksen vaihtajan avulla.
Rajoitukset
- Mukautettuja kooditoimintoja tuetaan tällä hetkellä vain pandas DataFrames -kehyksissä.
- Data Wrangler -näyttö toimii parhaiten suurissa näytöissä, mutta voit pienentää tai piilottaa käyttöliittymän eri osia pienille näytöille.
Data Wrangler -käynnistys Spark DataFramella
Käyttäjät voivat avata Spark DataFrames -ominaisuuden Data Wranglerissa suoraan Microsoft Fabric -muistikirjasta siirtymällä samaan avattavaan kehotteeseen, jossa pandas DataFrames näytetään. Aktiivisten Spark DataFrames -muuttujien luettelo näkyy avattavassa valikossa aktiivisten pandas-muuttujien luettelon alapuolella.
Tämä koodikatkelman luo Spark DataFramen samoilla mallitiedoilla, joita käytetään pandas Data Wrangler -opetusohjelmassa:
import pandas as pd
# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)
Käytä muistikirjan valintanauhan Aloitus-välilehdessä avattavaa Data Wrangler -kehotetta aktiivisten DataFrame-kehyksien selaamiseen muokkausta varten. Valitse Se, jonka haluat avata Data Wranglerissa.
Vihje
Data Wrangleria ei voi avata, kun muistikirjan ydin on varattu. Suoritettavan solun on suoritettava loppuun ennen kuin Data Wrangler voidaan käynnistää, kuten tässä näyttökuvassa näkyy:
Mukautettujen mallien valitseminen
Data Wrangler muuntaa Spark DataFramesin automaattisesti pandas-näytteiksi suorituskykysyistä. Kaikki työkalun luoma koodi kuitenkin lopulta käännetään PySparkille, kun se viedään takaisin muistikirjaan. Kuten muutkin pandas DataFrame -kehykset, voit mukauttaa oletusmallia. Jos haluat avata mukautetun mallin mistä tahansa aktiivisesta DataFrame-kehyksestä Data Wranglerin avulla, valitse "Valitse mukautettu malli" avattavasta valikosta tämän näyttökuvan mukaisesti:
Tämä käynnistää ponnahdusikkunan, jossa on asetukset halutun näytteen koon (rivien määrä) ja näytteenottomenetelmän (ensimmäiset tietueet, viimeiset tietueet tai satunnaisjoukko) määrittämiseksi seuraavassa näyttökuvassa esitetyllä tavalla:
Yhteenvetotilastojen tarkasteleminen
Kun Data Wrangler latautuu, se näyttää tietopalkin esikatseluruudukon yläpuolella. Tässä bannerissa kerrotaan, että Spark DataFrames muunnetaan tilapäisesti pandas-näytteiksi, mutta kaikki luotu koodi muunnetaan lopulta PySparkiksi. Tämän jälkeen Data Wrangler -toiminnon käyttäminen Spark DataFrame -kehyksissä ei eroa sen käyttämisestä pandas DataFrame -kehyksissä. Yhteenveto-paneelin kuvaava yleiskatsaus näyttää tietoja mallin dimensioista, puuttuvista arvoista ja niin edelleen. Kun valitset minkä tahansa Sarakkeen Data Wrangler -ruudukossa, Yhteenveto-paneeli päivittää ja näyttää kuvaavat tilastotiedot kyseisestä sarakkeesta. Nopeat merkitykselliset tiedot jokaisesta sarakkeesta ovat myös sen otsikossa.
Vihje
Sarakekohtaiset tilastotiedot ja visualisoinnit (sekä Yhteenveto-paneelissa että sarakeotsikoissa) riippuvat sarakkeen tietotyypistä. Esimerkiksi numeerisen sarakkeen lokeroitu histogrammi näkyy sarakeotsikossa vain, jos sarake on muuntettu numeeriseksi tyypiksi, kuten tässä näyttökuvassa esitetään:
Tietojenpuhdistustoimintojen selaaminen
Hakukelpoisia tietojen puhdistusvaiheita on Toiminnot-paneelissa. Toiminnot-paneelissa tietojen siistimisvaiheen valinta kehottaa sinua antamaan kohdesarakkeen tai -sarakkeet sekä kaikki vaiheen suorittamiseen tarvittavat parametrit. Esimerkiksi kehote skaalata sarake numeerisesti edellyttää uutta arvoaluetta, kuten tässä näyttökuvassa esitetään:
Vihje
Voit käyttää pienempää toimintovalikoimaa kunkin sarakeotsikon valikosta seuraavassa näyttökuvassa esitetyllä tavalla:
Toimintojen esikatselu ja käyttöönotto
Data Wrangler -näyttöruudukko esikatsele automaattisesti valitun toiminnon tuloksia, ja vastaava koodi näkyy automaattisesti ruudukon alla olevassa paneelissa. Vahvista esikatselemasi koodi valitsemalla kummassakin kohdassa Käytä. Jos haluat poistaa esikatselun koodin ja kokeilla uutta toimintoa, valitse Hylkää tässä näyttökuvassa esitetyllä tavalla:
Kun toiminto on käytössä, Tietojen Wrangler-toiminnon näyttämisen ruudukko ja yhteenvetotilastot päivittyvät tulosten mukaisesti. Koodi näkyy varattujen toimintojen käynnissä olevassa luettelossa, joka sijaitsee "Puhdistusvaiheet"-paneelissa, kuten tässä näyttökuvassa esitetään:
Vihje
Voit aina kumota viimeisimmän käytössä olevan vaiheen. Siistimisvaiheet -paneelissa näkyy roskakorikuvake, jos viet kohdistimen viimeksi käytetyn vaiheen päälle, kuten tässä näyttökuvassa on esitetty:
Tässä taulukossa on yhteenveto toiminnoista, joita Data Wrangler tällä hetkellä tukee:
Toiminto | Kuvaus |
---|---|
Lajittele | Lajittele sarake nousevassa tai laskevassa järjestyksessä |
Suodata | Suodata rivit yhden tai useamman ehdon perusteella |
Yksi kuuma koodaus | Luo uudet sarakkeet kullekin olemassa olevan sarakkeen yksilöivälle arvolle, mikä ilmaisee, että kyseiset arvot riviä kohti ovat olemassa tai eivät ole. |
Yhden kuuma koodaus ja erotin | Luokittaiset ja jaetut koodaustiedot erottimen avulla |
Muuta saraketyyppiä | Sarakkeen tietotyypin muuttaminen |
Sarakkeiden pudottaminen | Yhden tai useamman sarakkeen poistaminen |
Valitse sarake | Valitse vähintään yksi sarake ja poista loput |
Sarakkeen nimeäminen uudelleen | Sarakkeen nimeäminen uudelleen |
Jätä puuttuvat arvot pois | Poista rivit, joilla on puuttuvia arvoja |
Rivien kaksoiskappaleiden pudottaminen | Pudota kaikki rivit, joilla on arvojen kaksoiskappaleita yhdessä tai useammassa sarakkeessa |
Täytä puuttuvat arvot | Korvaa solut puuttuvista arvoista uudella arvolla |
Etsi ja korvaa | Korvaa solut tarkalla vastaavalla mallilla |
Ryhmittely sarakkeen ja koosteen mukaan | Ryhmittely sarakkeen arvojen ja koostetulosten mukaan |
Stripin välilyönnit | Poista välilyönnit tekstin alusta ja lopusta |
Tekstin jakaminen | Jaa sarake useisiin sarakkeisiin käyttäjän määrittämän erottimen perusteella |
Muunna teksti pieniksi kirjaimiksi | Muunna teksti pieniksi kirjaimiksi |
Muunna teksti isoilla kirjaimilla | Muunna teksti ISOILLA KIRJAIMILLA |
Skaalaa minimi-/maksimiarvot | Skaalaa numeerinen sarake minimi- ja maksimiarvon välille |
Flash-täyttö | Luo uusi sarake automaattisesti olemassa olevasta sarakkeesta johdettujen esimerkkien perusteella |
Näytön muokkaaminen
Voit milloin tahansa mukauttaa -käyttöliittymää Data Wrangler -näyttöruudukon yläpuolella olevan työkalurivin Näkymät-välilehdellä. Tämä voi piilottaa tai näyttää eri ruutuja asetusten ja näytön koon mukaan seuraavassa näyttökuvassa esitetyllä tavalla:
Koodin tallentaminen ja vieminen
Data Wrangler -näyttöruudukon yläpuolella olevalla työkalurivillä on vaihtoehtoja luodun koodin tallentamiseksi. Voit kopioida koodin leikepöydälle tai viedä sen muistikirjaan funktiona. Spark DataFramesin kohdalla pandas-otokseen luotu kaikki koodi käännetään PySparkille ennen kuin se laskeutuu takaisin muistikirjaan. Ennen kuin Data Wrangler sulkeutuu, työkalu näyttää esikatselun käännetystä PySpark-koodista, ja se tarjoaa myös mahdollisuuden viedä välipandakoodi.
Vihje
Data Wrangler luo koodin, jota käytetään vain, kun suoritat uuden solun manuaalisesti, eikä se korvaa alkuperäistä DataFrame-kehystä tässä näyttökuvassa esitetyllä tavalla:
Koodi muunnetaan PySpark-kentäksi seuraavassa näyttökuvassa esitetyllä tavalla:
Voit sitten suorittaa viedyn koodin seuraavassa näyttökuvassa esitetyllä tavalla:
Liittyvä sisältö
- Yleiskatsaus Data Wranglerista on tässä kumppanin artikkelissa
- Jos haluat kokeilla Data Wrangleria Visual Studio Codessa, siirry kohtaan Data Wrangler VS Codessa
- Jäikö tarvitsemasi ominaisuus väliin? Kerro meille siitä! Ehdota sitä Fabric Ideas -keskustelupalstalla