Semanttisten mallien ja tietokehysten suhteiden tutkiminen ja vahvistaminen
Tässä artikkelissa kerrotaan, miten voit semPy-semanttisen linkin funktioiden avulla löytää ja vahvistaa suhteita Power BI:n semanttisista malleista ja pandas DataFrame -kehyksistä.
Tietotieteessä ja koneoppimisessa on tärkeää ymmärtää tietoihisi sisäinen rakenne ja suhteet. Power BI on tehokas työkalu, jonka avulla voit mallintaa ja visualisoida näitä rakenteita ja suhteita. Jos haluat lisää merkityksellisiä tietoja tai luoda koneoppimismalleja, voit sukeltaa syvemmälle käyttämällä SemPy-kirjastomoduulien semanttisia linkkifunktioita.
Tietotutkijat ja yritysanalyytikot voivat SemPy-funktioiden avulla luetella, visualisoida ja vahvistaa suhteita Power BI:n semanttisissa malleissa tai etsiä ja vahvistaa suhteita pandas DataFrames -kehyksissä.
Edellytykset
Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä ilmaiseen Microsoft Fabric -kokeiluversioon.
Siirry Synapse Data Science -käyttökokemukseen aloitussivun vasemmassa reunassa olevan käyttökokemuksen vaihtajan avulla.
Luo uusi muistikirja , jonka avulla voit kopioida ja liittää koodia soluihin.
Spark 3.4:ssä ja tätä uudemmat versioissa semanttinen linkki on käytettävissä oletusarvoisessa suorituspalvelussa Fabricia käytettäessä, eikä sitä tarvitse asentaa. Jos kyseessä on Spark 3.3 tai uudempi tai jos haluat päivittää uusimpaan semanttisen linkin versioon, suorita seuraava komento:
%pip install -U semantic-link
Lisää muistikirjaasi lakehouse.
Semanttisten mallien yhteyksien luettelo
list_relationships
Moduulin sempy.fabric
funktio palauttaa luettelon kaikista Power BI:n semanttisesta mallista löytyneiden suhteiden luettelosta. Luettelon avulla ymmärrät tietotesi rakenteen ja sen, miten eri taulukot ja sarakkeet yhdistetään.
Tämä funktio käyttää semanttista linkkiä ja tuottaa merkintöjä dataframe-kehyksiin. DataFrame-kehyksissä on tarvittavat metatiedot semanttisen mallin välisten suhteiden ymmärtämiseksi. Huomautetuilla DataFrame-kehyksillä on helppo analysoida semanttisen mallin rakennetta ja käyttää sitä koneoppimismalleissa tai muissa tietojen analysointitehtävissä.
Jos haluat käyttää -funktiota list_relationships
, tuo ensin - sempy.fabric
moduuli. Sen jälkeen voit kutsua funktiota käyttämällä Power BI:n semanttisen mallin nimeä tai UUID-nimeä seuraavassa esimerkissä esitetyllä tavalla:
import sempy.fabric as fabric
fabric.list_relationships("my_dataset")
Edellinen koodi kutsuu funktiota Power BI:n list_relationships
semanttisella mallilla, jonka nimi on my_dataset. Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhdetta kohden, joten voit helposti tutkia ja analysoida semanttisen mallin sisäisiä suhteita.
Muistiinpano
Muistikirja, Power BI -tietojoukon semanttinen malli ja Lakehouse voivat sijaita samassa työtilassa tai eri työtiloissa. SemPy yrittää oletusarvoisesti käyttää semanttista malliasi seuraavasti:
- Lakehousen työtila, jos kiinnitit muistikirjaasi lakehousen.
- Muistikirjasi työtila, jos siihen ei ole kiinnitetty mitään.
Jos semanttinen mallisi ei sijaitse kummassakaan näistä työtiloista, sinun on määritettävä semanttisen mallin työtila, kun kutsut SemPy-menetelmää.
Suhteiden visualisointi semanttisissa malleissa
- plot_relationship_metadata
funktion avulla voit visualisoida suhteita semanttisessa mallissa, jotta voit ymmärtää paremmin mallin rakennetta. Tämä funktio luo kaavion, joka näyttää taulukoiden ja sarakkeiden väliset yhteydet. Kaavion avulla on helpompi ymmärtää semanttisen mallin rakennetta ja sitä, miten eri elementit liittyvät toisiinsa.
Seuraavassa esimerkissä näytetään, miten funktiota plot_relationship_metadata
käytetään:
import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata
relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)
Edellisessä koodissa list_relationships
funktio noutaa my_dataset semanttisen mallin suhteet ja plot_relationship_metadata
funktio luo kaavion suhteiden visualisoimiseksi.
Voit mukauttaa kaaviota määrittämällä, mitkä sarakkeet sisällytetään, määrittämällä, miten puuttuvat avaimet käsitellään, ja antamalla lisää käyrän määritteitä .
Suhteiden vahvistaminen semanttisissa malleissa
Nyt kun ymmärrät paremmin semanttisen mallisi suhteita, voit käyttää - list_relationship_violations
funktiota näiden suhteiden vahvistamiseen ja mahdollisten ongelmien tai epäjohdonmukaisuuksien tunnistamiseen. Funktion list_relationship_violations
avulla voit vahvistaa taulukoiden sisällön varmistaaksesi, että ne vastaavat semanttisessa mallissasi määritettyjä suhteita.
Käyttämällä tätä funktiota voit tunnistaa epäyhtenäisyyksiä määritetyn suhteen moninaisuuden kanssa ja korjata mahdolliset ongelmat, ennen kuin ne vaikuttavat tietoanalyysi- tai koneoppimismalleihin.
Jos haluat käyttää funktiota list_relationship_violations
, tuo sempy.fabric
ensin moduuli ja lue taulukot semanttisesta mallistasi.
Sen jälkeen voit kutsua funktiota sanastolla, joka yhdistää taulukoiden nimet DataFrame-kehyksiin taulukkosisällöllä.
Seuraavassa esimerkkikoodissa näytetään, miten voidaan luetella suhteiden rikkomukset:
import sempy.fabric as fabric
tables = {
"Sales": fabric.read_table("my_dataset", "Sales"),
"Products": fabric.read_table("my_dataset", "Products"),
"Customers": fabric.read_table("my_dataset", "Customers"),
}
fabric.list_relationship_violations(tables)
Edellinen koodi kutsuu funktiota list_relationship_violations
sanastolla, joka sisältää my_dataset semanttisen mallin Sales-, Products- ja Customers-taulukot. Voit mukauttaa funktiota asettamalla kattavuuskynnysarvon, määrittämällä, miten puuttuvia avaimia käsitellään, ja määrittämällä puuttuvien avainten määrän raportissa.
Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhderikkomusta kohden, joten voit helposti tunnistaa ja käsitellä semanttisen mallisi mahdollisia ongelmia.
-funktion list_relationship_violations
avulla voit varmistaa semanttisen mallisi yhtenäisen ja tarkan toiminnan, jotta voit luoda luotettavampia koneoppimismalleja ja saada syvällisempiä tietoja tiedoistasi.
Suhteiden etsiminen pandas DataFrames -kehyksistä
Vaikka Fabric-moduulin list_relationships
- ja list_relationship_violations
- plot_relationships_df
funktiot ovat tehokkaita työkaluja semanttisten mallien välisten suhteiden tutkimiseen, sinun on ehkä myös löydettävä suhteita pandoina tuoduista muista tietolähteistä DataFrames-kehyksissä.
Tässä moduulin find_relationships
sempy.relationship
funktiolla on merkitystä.
find_relationships
Moduulin sempy.relationships
funktio auttaa tietojenkäsittelyasiantuntijat ja yritysanalyytikot löytämään mahdollisia suhteita pandas DataFrames -luettelosta. Tämän funktion avulla voit tunnistaa mahdolliset yhteydet taulukoiden ja sarakkeiden välillä, jolloin voit paremmin ymmärtää tietoihisi liittyvän rakenteen ja eri elementtien välisen suhteen.
Seuraava esimerkkikoodi näyttää, miten voit löytää suhteita pandas DataFrame -kehyksistä:
from sempy.relationships import find_relationships
tables = [df_sales, df_products, df_customers]
find_relationships(tables)
Edellinen koodi kutsuu funktiota find_relationships
kolmen Pandas DataFrame -kohteen luettelon avulla: df_sales
, df_products
ja df_customers
.
Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi potentiaalista suhdetta kohden, joten voit helposti tutkia ja analysoida tietoihisi liittyviä suhteita.
Voit mukauttaa funktiota määrittämällä kattavuuskynnysarvon, nimen samankaltaisuuden raja-arvon, pois jätettävän suhdeluettelon ja sen, sisällytetäänkö mukaan monta moneen -suhteet.
Pandas DataFrames -yhteyksien vahvistaminen
Kun olet löytänyt mahdollisia suhteita pandas DataFrame -kehyksistä -funktion find_relationships
avulla, voit funktion list_relationship_violations
avulla vahvistaa nämä suhteet ja tunnistaa mahdolliset ongelmat tai epäyhtenäisyykset.
Funktio list_relationship_violations
vahvistaa taulukoiden sisällön ja varmistaa, että ne vastaavat löydettyjä suhteita. Käyttämällä tätä funktiota tunnistaaksesi epäyhtenäisyyksiä määritetyn suhteen moninaisuuden kanssa, voit korjata mahdolliset ongelmat, ennen kuin ne vaikuttavat tietoanalyysi- tai koneoppimismalleihisi.
Seuraavassa esimerkkikoodissa näytetään, miten voit havaita suhderikkomuksia pandas DataFrames -kehyksissä:
from sempy.relationships import find_relationships, list_relationship_violations
tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)
list_relationship_violations(tables, relationships)
Edellinen koodi kutsuu funktiota list_relationship_violations
kolmen pandas DataFrames-, df_sales
, df_products
- ja df_customers
-kehyksen find_relationships
sekä funktion DataFrame-suhteiden luettelon avulla.
Funktio list_relationship_violations
palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhderikkomusta kohden, joten voit helposti tunnistaa ja käsitellä tietoihisi liittyviä ongelmia.
Voit mukauttaa funktiota asettamalla kattavuuskynnysarvon, määrittämällä, miten puuttuvia avaimia käsitellään, ja määrittämällä puuttuvien avainten määrän raportissa.
list_relationship_violations
Käyttämällä -toimintoa pandas DataFramesin kanssa voit varmistaa tietojen yhdenmukaisen ja tarkan toiminnan, jotta voit luoda luotettavampia koneoppimismalleja ja saada syvällisempiä tietoja tiedoistasi.
Liittyvä sisältö
- Lue lisätietoja semanttisista funktioista
- SemPy-viitedokumentaation käytön aloittaminen
- Opetusohjelma: Suhteiden etsiminen semanttisesta mallista semanttisen linkin avulla
- Opetusohjelma: Synthea-tietojoukon suhteiden etsiminen semanttisen linkin avulla
- Tietojen toiminnallisten riippuvuuksien havaitseminen, tutkiminen ja vahvistaminen