Mikä on Microsoft Fabricin datatiede?
Microsoft Fabric tarjoaa datatieteen kokemuksia, joiden avulla käyttäjät voivat suorittaa kattavan datatieteen työnkulun tietojen rikastamiseksi ja merkityksellisten liiketoimintatietojen hyödyntämiseksi. Voit suorittaa laajan valikoiman toimintoja koko datatiedeprosessista aina tietojen tutkimisesta, valmistelusta ja puhdistuksesta kokeiluihin, mallinnukseen, mallien pisteytykseen ja bi-raporttien ennakoivien merkityksellisten tietojen palvelemiseen.
Microsoft Fabric -käyttäjät voivat käyttää datatieteen aloitussivua. Sieltä he voivat löytää ja käyttää erilaisia olennaisia resursseja. He voivat esimerkiksi luoda koneoppimiskokeiluja, malleja ja muistikirjoja. Ne voivat myös tuoda olemassa olevia muistikirjoja datatieteen aloitussivulle.
Saatat tietää, miten tyypillinen tietojenkäsittelyprosessi toimii. Tunnettuna prosessina useimmat koneoppimisprojektit seuraavat sitä.
Korkealla tasolla prosessi sisältää seuraavat vaiheet:
- Ongelman muotoileminen ja ideat
- Tietojen etsiminen ja esikäsittely
- Kokeilut ja mallinnus
- Täydennä ja operationalisoi
- Merkityksellisten tietojen hankkiminen
Tässä artikkelissa kuvataan Microsoft Fabric Data Science -ominaisuuksia tietojenkäsittelyprosessin näkökulmasta. Tässä artikkelissa esitellään jokaisessa tietojenkäsittelyprosessin vaiheessa Microsoft Fabric -ominaisuudet, joista voi olla apua.
Ongelman muotoileminen ja ideat
Microsoft Fabricin datatieteen käyttäjät työskentelevät samassa ympäristössä kuin yrityskäyttäjät ja analyytikot. Tämän seurauksena tietojen jakamisesta ja yhteistyöstä tulee saumattomampaa eri rooleissa. Analyytikot voivat helposti jakaa Power BI -raportteja ja -tietojoukkoja tietojenkäsittelyn harjoittajien kanssa. Microsoft Fabric -roolien yhteistyö helppous tekee kädenojennuksista ongelman muotoiluvaiheessa paljon helpompaa.
Tietojen etsiminen ja esikäsittely
Microsoft Fabric -käyttäjät voivat käsitellä Tietoja OneLakessa Lakehouse-kohteen avulla. Lakehouse liittää helposti muistikirjaan tietojen selaamista ja käsittelemistä varten.
Käyttäjät voivat helposti lukea tietoja Lakehousesta suoraan Pandas-tietokehykseen. Tätä varten tämä mahdollistaa onelake-tietojen saumattoman lukemisen.
Tehokas työkalujoukko on saatavilla tietojen käsittely- ja tietojen orkestrointijaksoihin tietojen integrointiputkien kanssa, jotka ovat suoraan integroitu osa Microsoft Fabricia. Helposti rakennettavat tietoputket voivat käyttää ja muuntaa tietoja muotoon, jota koneoppiminen voi käyttää.
Tietojen tarkasteleminen
Tärkeä osa koneoppimisprosessia on tietojen ymmärtäminen tutkimalla ja visualisoimalla.
Tietojen tallennussijainnista riippuen Microsoft Fabric tarjoaa joukon erilaisia työkaluja tietojen tutkimiseen ja valmisteluun analysointia ja koneoppimista varten. Muistikirjoista tulee yksi nopeimmista tavoista päästä alkuun tietojen tutkimisessa.
Apache Spark ja Python tietojen valmisteluun
Microsoft Fabric tarjoaa ominaisuuksia, joiden avulla voit muuntaa, valmistella ja tutkia tietojasi suuressa mittakaavassa. Sparkin avulla käyttäjät voivat hyödyntää PySpark/Python-, Scala- ja SparkR/SparklyR-työkaluja tietojen esikäsittelyyn mittakaavassa. Tehokkaat avoimen lähdekoodin visualisointikirjastot voivat parantaa tietojen tutkimiskokemusta ja auttaa ymmärtämään tietoja paremmin.
Data Wrangler saumattomalle tietojen puhdistukselle
Microsoft Fabric Notebook -käyttökokemus lisäsi ominaisuuden, joka käyttää Data Wrangler -koodityökalua, joka valmistelee tietoja ja luo Python-koodia. Tämän kokemuksen ansiosta on helppo nopeuttaa työläitä ja arkipäiväisiä tehtäviä, kuten tietojen puhdistusta sekä toistettavuutta ja automaatiota luodun koodin avulla. Lisätietoja Data Wranglerista on tämän asiakirjan Data Wrangler -osiossa.
Kokeilut ja koneoppimisen mallinnus
Työkaluilla, kuten PySpark/Python, SparklyR/R, muistikirjat voivat käsitellä koneoppimismallin harjoittamista.
Koneoppimisalgoritmit ja -kirjastot voivat auttaa koneoppimismallien kouluttamisessa. Kirjastonhallintatyökalut voivat asentaa näitä kirjastoja ja algoritmeja. Käyttäjillä on siksi mahdollisuus hyödyntää monia suosittuja koneoppimiskirjastoja ja suorittaa koneoppimismallikoulutus Microsoft Fabricissa.
Lisäksi suositut kirjastot, kuten Scikit Learn, voivat kehittää malleja.
MLflow-kokeet ja -suoritukset voivat seurata koneoppimismallin harjoittamista. Microsoft Fabric tarjoaa valjastetun MLflow-kokemuksen, jonka avulla käyttäjät voivat käyttää niitä, ja voit kirjata kokeiluja ja malleja. Lue lisää siitä, miten voit MLflow'n avulla seurata kokeita ja hallita malleja Microsoft Fabricissa.
SynapseML
Microsoftin omistama ja ylläpitämä avoimen lähdekoodin kirjasto SynapseML (aiemmin MMLSpark) yksinkertaistaa erittäin skaalattavaa koneoppimisputken luontia. Työkaluekosysteeminä se laajentaa Apache Spark -kehystä useisiin uusiin suuntiin. SynapseML poistaa useita olemassa olevia koneoppimiskehyksiä ja uusia Microsoft-algoritmeja yhdeksi skaalattavaksi ohjelmointirajapinnaksi. Avoimen lähdekoodin SynapseML-kirjasto sisältää monipuolisen koneoppimistyökalujen ekosysteemin ennakoivien mallien kehittämiseen sekä hyödyntää Azuren tekoälypalveluiden ennalta koulutettuja tekoälymalleja. Lue lisätietoja SynapseML -.
Täydennä ja operationalisoi
Muistikirjat pystyvät käsittelemään koneoppimismallin erän pisteytyksen avoimen lähdekoodin kirjastoilla ennustetta varten tai Microsoft Fabricin skaalattavan universaalin Spark Predict -funktion, joka tukee MLflow-pakattuja malleja Microsoft Fabric -mallirekisterissä.
Merkityksellisten tietojen hankkiminen
Microsoft Fabricissa ennustetut arvot voidaan helposti kirjoittaa OneLakeen ja käyttää saumattomasti Power BI -raporteista Power BI Direct Lake -tilassa. Tämän ansiosta tietojenkäsittelytieteen harjoittajien on erittäin helppo jakaa tuloksia työstään sidosryhmien kanssa, ja se myös yksinkertaistaa toimintaa.
Erän pisteytyksen sisältävät muistikirjat voidaan ajoittaa suoritettavaksi käyttämällä Muistikirjan ajoitusominaisuuksia. Erän pisteytys voidaan ajoittaa myös osana tietoputken toimintoja tai Spark-töitä. Microsoft Fabric Direct Lake -tila antaa Power BI:lle automaattisesti uusimmat ennusteet ilman, että tietoja tarvitsee ladata tai päivittää.
Tietojen tarkasteleminen semanttisen linkin avulla
Tietotutkijat ja yritysanalyytikot käyttävät paljon aikaa tietojen ymmärtämiseen, puhdistamiseen ja muuntamiseen, ennen kuin he voivat aloittaa merkityksellisen analyysin. Yritysanalyytikot käyttävät yleensä semanttisia malleja ja koodaavat toimialueen tiedot ja liiketoimintalogiikan Power BI -mittareihin. Toisaalta tietojenkäsittelyasiantuntijat voivat käsitellä samoja tietoja, mutta yleensä eri koodiympäristössä tai kielessä.
Semanttisen linkin avulla tietojenkäsittelyasiantuntijat voivat muodostaa yhteyden Power BI:n semanttisten mallien ja Microsoft Fabricin Synapse Data Science -kokemuksen välille SemPy Python -kirjastonkautta. SemPy yksinkertaistaa tietoanalytiikkaa tallentamalla ja hyödyntämällä tietojen semantiikkaa, kun käyttäjät suorittavat erilaisia muunnoksia semanttisista malleista. Hyödyntämällä semanttista linkkiä tietojenkäsittelyasiantuntijat voivat:
- välttää liiketoimintalogiikan ja -toimialueen tietämyksen uudelleen toteutuksesta koodissaan
- Power BI -mittareiden helppo käyttö ja käyttö niiden koodissa
- semantiikan käyttö uusien kokemusten, kuten semanttisten funktioiden, lisääminen
- tutki ja vahvista funktionaalisia riippuvuuksia ja tietojen välisiä suhteita
SemPy:n avulla organisaatiot voivat odottaa näkeväni seuraavat:
- tuottavuuden lisääminen ja nopeampi yhteistyö samoilla tietojoukoilla toimivissa tiimeissä
- lisääntynyt yhteistyö liiketoimintatietojen ja tekoälytiimien välillä
- pienempi moniselitteisyys ja helpompi oppimiskäyrä uuteen malliin tai tietojoukkoon perehdyttäessä
Lisätietoja semanttisesta linkistä on artikkelissa Mikä on semanttinen linkki?.
Aiheeseen liittyvä sisältö
- Aloita datatieteen päästä päähän -mallien käyttäminen, katso Data Science Tutorials
- Lisätietoja tietojen valmistelusta ja puhdistamisesta Data Wranglerin avulla on artikkelissa Data Wrangler
- Lisätietoja kokeilujen seurannasta on artikkelissa koneoppimisen kokeilu
- Lisätietoja mallien hallinnasta on artikkelissa koneoppimismallin
- Lisätietoja erän pisteytyksestä Ennusta-parametrilla on kohdassa tulosmallit PREDICT-
- Tarjoa ennusteita Lakehousesta Power BI:hin Direct Lake Mode