Python-käyttökokemuksen käyttäminen muistikirjassa

Artikkeli
12/13/2024

Muistiinpano

Tällä hetkellä ominaisuus on esikatseluvaiheessa.

Python-muistikirja on uusi kokemus, joka on rakennettu Fabric-muistikirjan päälle. Se on monipuolinen ja vuorovaikutteinen työkalu, joka on suunniteltu tietojen analysointiin, visualisointiin ja koneoppimiseen. Se tarjoaa saumattoman kehityskokemuksen Python-koodin kirjoittamiseen ja suorittamiseen. Tämä tekee siitä tärkeän työkalun datatutkijoille, analyytikoille ja BI-kehittäjille erityisesti sellaisten etsintätehtävien osalta, jotka eivät edellytä massadataa ja hajautettua tietojenkäsittelyä.

Python-muistikirjasta saat seuraavaa:

Useat sisäiset python-ydinten: Python-muistikirjat tarjoavat puhtaan Python-koodausympäristön ilman Sparkia, ja kaksi versiota Python-ydintä - Python 3.10 ja 3.11 ovat oletusarvoisesti käytettävissä, ja alkuperäiset ipython-ominaisuudet, kuten iPyWidget, taikakomennot.
Cost effective: Uusi Python-muistikirja tarjoaa kustannuksia säästäviä etuja suorittamalla yksittäisessä solmuklusterissa, jossa on oletusarvoisesti 2vCores/16 Gt muistia. Näin voit varmistaa resurssien tehokkaan käytön tietojen etsintäprojekteissa, joissa on pienempi tietokoko.
Lakehouse & Resources ovat suoraan saatavilla: Fabric Lakehouse yhdessä Notebookin sisäänrakennettujen resurssien täydellä toiminnallisuudella on saatavilla Python-muistikirjassa. Näin käyttäjät voivat helposti tuoda tiedot Python-muistikirjaan, kun he vain yrittävät vetää & avattavasta tiedostosta, jotta saat koodikatkelman.
Mix -ohjelmointi t-SQL-: Python-muistikirja tarjoaa helpon tavan käsitellä Data Warehouse- ja SQL-päätepisteitä explorerissa. Muistikirjaapuohjelmien tietoliittimen avulla voit suorittaa T-SQL-komentosarjat helposti Pythonin kontekstissa.
suositujen tietoanalytiikkakirjastojen tuen: Python-muistikirjoissa on valmiiksi asennettuja kirjastoja, kuten DuckDB, Polars ja Scikit-learn, jotka tarjoavat kattavan työkalupaketin tietojen muokkaamiseen, analysointiin ja koneoppimiseen.
Advanced Intellisense: Python-muistikirja on omaksumassa Pylancen intellisense-moduuliksi yhdessä muiden Fabric-mukautettujen kielipalvelujen kanssa tavoitteena tarjota muistikirjojen kehittäjille huippuluokan koodauskokemus.
NotebookUtils & Semanttinen linkki: Tehokkaat ohjelmointirajapintatyökalut mahdollistavat Fabric- ja Power BI -ominaisuuksien käytön helposti koodi ensin -kokemuksella.
Rich Visualization Capabilities -: Lukuun ottamatta suosittua rich dataframe preview 'Table' -funktiota ja 'Chart'-funktiota, tuemme myös suosittuja visualisointikirjastoja, kuten Matplotlib, Seaborn ja Plotly. PowerBIClient tukee myös näitä kirjastoja, joiden avulla käyttäjät voivat paremmin ymmärtää tietomalleja ja merkityksellisiä tietoja.
Yleisiä ominaisuuksia Fabric Notebook -: Kaikki muistikirjatason ominaisuudet soveltuvat luonnollisesti Python-muistikirjalle, kuten muokkausominaisuudet, AutoSave, yhteistyö, jakaminen ja käyttöoikeuksien hallinta, Git-integrointi, tuonti/vienti jne.
Full stack Data Science Capabilities -: Kehittynyt vähän koodausta hyödyntävä työkalupaketti Data Wrangler, koneoppimiskehyksen MLFlow ja tehokas Copilot ovat kaikki saatavilla Python-muistikirjassa.

Python Notebookin käyttäminen

Kun olet avannut Fabric Notebookin, voit siirtyä Python avattavassa kielivalikossa Home -välilehdessä ja muuntaa koko muistikirja-asetuksen Pythoniksi.

Useimmat yleisistä ominaisuuksista ovat tuettuja muistikirjatasolla. Voit tutustua tarkemmin Microsoft Fabric -muistikirjojen käyttämiseen ja Kehitä, suorita ja hallitse Microsoft Fabric -muistikirjoja. Tässä listaamme joitakin Python-skenaarioita koskevia tärkeimpiä ominaisuuksia.

Python-muistikirjojen suorittaminen

Python-muistikirja tukee useita toimintojen suoritustapoja:

Interactive run: Voit suorittaa Python-muistikirjan vuorovaikutteisesti kuten alkuperäistä Jupyter-muistikirjaa.
Schedule-suoritus: Voit käyttää muistikirjan asetussivun kevytpainotteista ajoitustoimintoa Python-muistikirjan suorittamiseen erätyönä.
Pipeline run: Voit järjestää Python-muistikirjat muistikirjatoimintoina -tietoputkessa. Tilannevedos luodaan työn suorittamisen jälkeen.
Reference run: Voit viitata notebookutils.notebook.run() tai notebookutils.notebook.runMultiple() avulla python-muistikirjojen suorittamiseen toisessa Python-muistikirjassa erätyönä. Tilannevedos luodaan, kun viittaus on suoritettu loppuun.
Julkinen ohjelmointirajapinta -suoritus: Voit ajoittaa Python-muistikirjasi suoritettavaksi muistikirjan käytellä julkista ohjelmointirajapintaa, varmista, että muistikirjan metatietojen kieli- ja ydinominaisuudet on määritetty oikein julkisen ohjelmointirajapinnan hyötykuorman kieli- ja ydinominaisuudet.

Voit valvoa Python-muistikirjatyön suoritustietoja valintanauhavälilehdellä Suorita –>Näytä kaikki suoritukset.

Tietojen käsittely

Voit käsitellä Lakehousea, Varastoja, SQL-päätepisteitä ja Python-muistikirjan sisäisiä resurssikansioita.

Lakehousen vuorovaikutus

Voit asettaa oletuksena Lakehouse, tai voit myös lisätä useita Lakehouse-taloja tutkiaksesi ja käyttääksesi niitä muistikirjoissa.

Jos et tunne lukea tieto-objekteja, kuten delta -taulukkoa,, yritä vetää ja pudottaa tiedosto- ja delta-taulukko muistikirjapohjaan tai käytä Lataa tiedot - objektin avattavassa valikossa. Muistikirja lisää koodikatkelman automaattisesti koodisoluun ja luo koodin kohdetieto-objektin lukemista varten.

Muistiinpano

Jos kohtaat OOM:ta ladatessasi suuria tietomääriä, kokeile käyttää DuckDB-, Polars- tai PyArrow-tietokehystä pandas-kehyksen sijaan.

Löydät Lakehouse-toiminnon kirjoitustoiminnon kohdasta Selaa koodikatkelmaa –>Kirjoita tietoja delta-taulukkoon -.

Varastojen vuorovaikutus ja sekoitusohjelmointi T-SQL:n avulla

Voit lisätä tietovarastoja tai SQL-päätepisteitä notebookin Varastonhallinnasta. Voit myös vetää ja pudottaa taulukot muistikirjapohjaan tai käyttää pikakuvaketoimintoja avattavassa taulukon valikossa. Notebook luo automaattisesti koodikatkelman puolestasi. Voit käyttää notebookutils.data -apuohjelmaa yhteyden muodostamiseen varastoihin ja kyselyn muodostamiseen tiedoille käyttämällä T-SQL-lauseketta Pythonin yhteydessä.

Muistiinpano

SQL-päätepisteet ovat vain luku -tilassa täällä.

Muistikirjan resurssit -kansio

Notebook -resurssit sisäinen resurssikansio on suoraan saatavilla Python Notebookissa. Voit käsitellä sisäisen resurssikansion tiedostoja helposti Python-koodilla aivan kuin käsittelet paikallista tiedostojärjestelmääsi. Tällä hetkellä ympäristön resurssikansiota ei tueta.

Ydintoiminnot

Python-muistikirja tukee kahta sisäistä ydintä juuri nyt, ne ovat Python 3.10 ja Python 3.11, oletus valittu ydin on Python 3.11. voit vaihtaa niiden välillä helposti.

Voit keskeyttää, käynnistää uudelleen tai vaihtaa ydintä valintanauhan aloitussivun välilehdessä. Ydinten keskeytyminen Python-muistikirjoissa on sama kuin Spark-muistikirjassa olevan solun peruuttaminen.

Epänormaali ydinpoistuminen keskeyttää koodin suorittamisen ja menettää muuttujia, mutta se ei pysäytä muistikirjaistuntoa.

On komentoja, jotka voivat johtaa ydinhälytykseen. Esimerkiksi quit(), exit().

Kirjastonhallinta

Voit käyttää %pip- ja %conda-komentoja sisäiseen asennukseen. Komennot tukevat sekä julkisia kirjastoja että mukautettuja kirjastoja.

Mukautettujen kirjastojen tapauksessa voit ladata lib-tiedostot sisäiset resurssit -kansioon. Tuemme useita eri kirjastotyyppejä, kuten .whl, .jar, .dll, .py, jne. voit vain yrittää vetää&avattavan tiedoston ja koodikatkelma luodaan automaattisesti.

Voit joutua käynnistämään ytimen uudelleen, jotta voit käyttää päivitettyjä paketteja.

Istunnon määrityksen taikakomento

Samoin kuin muistikirjassa olevan Spark-istunnon määrityksen mukauttaminen, voit käyttää %%configure myös Python-muistikirjassa. Python-muistikirja tukee laskentasolmukoon, kiinnityspisteiden ja muistikirjaistunnon oletusjärvitalon mukauttamista. Niitä voidaan käyttää sekä vuorovaikutteisessa muistikirjassa että putkimuistikirjatoiminnassa. Suosittelemme käyttämään %%configure komentoa muistikirjasi alussa tai sinun on käynnistettävä muistikirja-istunto uudelleen, jotta asetukset tulevat voimaan.

Seuraavassa ovat Python-muistikirja-%%configuretuetut ominaisuudet:

%%configure
{
    "vCores": 4, // Recommended values: [4, 8, 16, 32, 64], Fabric will allocate matched memory according to the specified vCores.
    "defaultLakehouse": {  
        // Will overwrites the default lakehouse for current session
        "name": "<lakehouse-name>",
        "id": "<(optional) lakehouse-id>",
        "workspaceId": "<(optional) workspace-id-that-contains-the-lakehouse>" // Add workspace ID if it's from another workspace
    },
    "mountPoints": [
        {
            "mountPoint": "/myMountPoint",
            "source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path>"
        },
        {
            "mountPoint": "/myMountPoint1",
            "source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path1>"
        },
    ],
}

Voit tarkastella käsittelyresurssien päivitystä muistikirjan tilarivillä ja seurata käsittelysolmun suoritin- ja muistin käyttöä reaaliaikaisesti.

NotebookUtils

Notebook Utilities (NotebookUtils) on sisäinen paketti, jonka avulla voit helposti suorittaa yleisiä tehtäviä Fabric Notebookissa. Se on esiasentettu Python-suorituspalveluun. NotebookUtils-apuohjelman avulla voit käsitellä tiedostojärjestelmiä, saada ympäristömuuttujia, ketjuttaa muistikirjoja yhteen, käyttää ulkoista tallennustilaa ja käsitellä salaisuuksia.

notebookutils.help() avulla voit luetella käytettävissä olevia ohjelmointirajapintoja ja saada apua menetelmien käyttöön tai viitata doc NotebookUtils -.

Tietoapuohjelmat

Muistiinpano

Tällä hetkellä ominaisuus on esikatseluvaiheessa.
Ohjelmointirajapintasopimus saattaa muuttua lähitulevaisuudessa.

notebookutils.data-apuohjelmien avulla voit muodostaa yhteyden annettuun tietolähteeseen ja lukea ja kysellä tietoja T-SQL-lausekkeen avulla.

Saat yleiskatsauksen käytettävissä olevista menetelmistä suorittamalla seuraavan komennon:

notebookutils.data.help()

Tuotos:

Help on module notebookutils.data in notebookutils:

NAME
    notebookutils.data - Utility for read/query data from connected data sources in Fabric

FUNCTIONS
    connect_to_artifact(artifact: str, workspace: str = '', artifact_type: str = None) -> pyodbc.Connection
        Establishes and returns an ODBC connection to a specified artifact within a workspace 
        for subsequent data queries using T-SQL.
        
        :param artifact: The name or ID of the artifact to connect to.
        :param workspace:  Optional; The workspace in which the provided artifact is located, if not provided,
                             use the workspace where the current notebook is located.
        :param artifactType: Optional; The type of the artifact, Currently supported type are Lakehouse, Warehouse and MirroredDatabase. 
                                If not provided, the method will try to determine the type automatically.
        :return: A connection object to the specified artifact.
        
        :raises UnsupportedArtifactException: If the specified artifact type is not supported to connect.
        :raises ArtifactNotFoundException: If the specified artifact is not found within the workspace.
        
        Examples:
            sql_query = "SELECT DB_NAME()"
            with notebookutils.data.connect_to_artifact("ARTIFACT_NAME_OR_ID", "WORKSPACE_ID", "ARTIFACT_TYPE") as conn:
                cursor = conn.cursor()
                cursor.execute(sql_query)
                rows = cursor.fetchall()
                for row in rows:
                    print(row)
    
    help(method_name=None)
        Provides help for the notebookutils.data module or the specified method.
        
        Examples:
        notebookutils.data.help()
        notebookutils.data.help("connect_to_artifact")
        :param method_name: The name of the method to get help with.

DATA
    __all__ = ['help', 'connect_to_artifact']

FILE
    /home/trusted-service-user/jupyter-env/python3.11/lib/python3.11/site-packages/notebookutils/data.py

Tietojen kyseleminen Lakehousesta

conn = notebookutils.data.connect_to_artifact("lakehouse_name_or_id", "optional_workspace_id", "optional_lakehouse_type")

cursor = conn.cursor()
cursor.execute("SELECT * FROM sys.schemas;")
rows = cursor.fetchall()
for row in rows:
    print(row)

Tietojen kyseleminen varastosta

conn = notebookutils.data.connect_to_artifact("warehouse_name_or_id", "optional_workspace_id", "optional_warehouse_type")

cursor = conn.cursor()
cursor.execute("SELECT * FROM sys.schemas;")
rows = cursor.fetchall()
for row in rows:
    print(row)

Muistiinpano

NotebookUtils-apuohjelmat ovat toistaiseksi käytettävissä vain Python-muistikirjassa.
Tunnettu rajoitus: connect_to_artifact-ohjelmointirajapinnassa palautettu conn-objekti alustaa sisäisesti PBI-tunnuksen todentaakseen käyttäjän muodostaessaan yhteyden tietolähteeseen. Se ei kuitenkaan tue tunnuksen päivitystä. Tällä hetkellä PBI-tunnus on kelvollinen vain yhden tunnin ajan, yli tunnin ylittävät kyselyt epäonnistuvat tunnuksen vanhentumisongelman vuoksi.

Koodikatkelmien selaaminen

Hyödyllisiä Python-koodikatkelmia on Muokkaa -välilehdessä –>Selaa koodikatkelmia, uudet Python-mallit ovat nyt saatavilla. Voit oppia Python-koodikatkelmasta, jotta voit aloittaa muistikirjaan tutustumisen.

Semanttinen linkki

Semanttinen linkki on ominaisuus, jonka avulla voit muodostaa yhteyden semanttisten mallien ja Synapse Data Science -tieteen välille Microsoft Fabricissa. Sitä tuetaan suoraan Python-muistikirjassa. BI-teknikot ja Power BI -kehittäjät voivat käyttää semanttista linkkiyhteyttä ja hallita semanttista mallia helposti. Lue lisätietoja semanttisesta linkistä julkisen asiakirjan.

Visualisointi

Kirjastoja sisältävien kaavioiden piirtämisen lisäksi sisäänrakennetun visualisoinnin -funktion avulla voit muuttaa DataFrame-kehykset monipuoliseksi tietojen visualisoinniksi. Voit käyttää display() -funktiota tietokehyksissä monipuolisen tietokehyksen taulukkonäkymän ja kaavionäkymän tuottamiseksi.

Muistiinpano

Kaavion määritykset säilyvät Python-muistikirjassa, mikä tarkoittaa, että koodisolun uudelleenajon jälkeen, jos kohdetietokehyksen rakenne ei ole muuttunut, tallennetut kaaviot ovat edelleen pysyviä.

Koodin intelliSense

Python-muistikirja integroi Pylancen Python-koodauskokemuksen parantamiseksi, Pylance on Pythonin oletuskielipalvelutuki Visual Studio Codessa. Se tarjoaa paljon helppokäyttöisia funktioita, kuten avainsanojen korostuksen, pikatiedot, koodin täydentämisen, parametritiedot ja syntaksivirheen tunnistamisen. Lisäksi Pylancen suorituskyky on parempi, kun muistikirja on pitkä.

Datatieteen ominaisuudet

Tutustu Microsoft Fabric Data Science -dokumentaatioon, niin saat lisätietoja datatieteestä ja tekoälykokemuksesta Fabricissa. Tässä listaamme muutamia keskeisiä datatieteen ominaisuuksia, joita tuetaan suoraan Python-muistikirjassa.

Data Wrangler: Data Wrangler on muistikirjapohjainen työkalu, joka tarjoaa mukaansatempaavan käyttöliittymän tietojen analysointiin. Tämä ominaisuus yhdistää ruudukon kaltaisen tietojen näytön dynaamisiin yhteenvetotilastoihin, sisäisiin visualisointeihin ja kirjastoon yleisiä tietojen puhdistustoimintoja. Se tarjoaa tietojen siistimistä, tietojen muuntamista ja integrointia, mikä nopeuttaa tietojen valmistelua Data Wranglerilla.
MLflow-: Koneoppimisen kokeilu on organisaation ja hallinnan ensisijainen yksikkö kaikissa toisiinsa liittyvissä koneoppimissuosikeissa. Suoritus vastaa mallikoodin yksittäistä suoritusta.
Fabric Auto Logging: Synapse Data Science in Microsoft Fabric sisältää automaattisen lokikorjauksen, joka vähentää merkittävästi koodia, jota tarvitaan koneoppimismallin parametrien, mittarien ja kohteiden automaattiseen kirjaamiseen harjoittamisen aikana.

Automaattinen lokkeaminen laajentaa MLflow Tracking -ominaisuuksia. Automaattinen kirjaus voi tallentaa eri mittareita, kuten tarkkuuden, tappion, F1-pisteet ja määrittämäsi mukautetut mittarit. Automaattisen lokittelun avulla kehittäjät ja datatieteilijät voivat helposti seurata ja vertailla eri mallien suorituskykyä ja kokeilla ilman manuaalista seurantaa.
Copilot: Copilot for Data Science and Data Engineering -muistikirjat on tekoälyassistentti, joka auttaa tietojen analysoinnissa ja visualisoinnissa. Se toimii Lakehouse-taulukoiden, Power BI -tietojoukkojen ja pandas/spark-tietokehysten kanssa ja antaa vastauksia ja koodikatkelmia suoraan muistikirjaan. Voit käyttää Copilot-keskustelupaneelia ja char-magics-muistikirjassa, ja tekoäly tarjoaa vastaukset tai koodin kopioitamiseksi muistikirjaasi.

Julkisen esikatselun tunnetut rajoitukset

Live-biljardikokemusta ei taata jokaiselle Python-muistikirjasuoritukselle. Istunnon alkamisaika voi olla jopa 3 minuuttia, jos muistikirjan suoritus ei osu live-altaaseen, kun taas Python-muistikirjan käyttö kasvaa, sillä älykkäät ryhmittelymenetelmät lisäävät vähitellen reaaliaikaisen uima-altaan varaamista kysynnän tyydyttämiseksi.
Ympäristön integrointi ei ole käytettävissä Python-muistikirjassa julkisessa esikatselussa.
Määritä istunnon aikakatkaisu ei ole käytettävissä toistaiseksi.
Copilot voi luoda Spark-lausekkeen, joka ei välttämättä ole suoritettava Python-muistikirjassa.
Tällä hetkellä Python-muistikirjan Copilot-muistikirjaa ei tueta täysin useilla alueilla. Käyttöönottoprosessi on edelleen käynnissä. Pysy kuulolla, kun jatkamme tuen käyttöönottoa useammilla alueilla.

Jaa

Python-käyttökokemuksen käyttäminen muistikirjassa

Python Notebookin käyttäminen

Python-muistikirjojen suorittaminen

Tietojen käsittely

Lakehousen vuorovaikutus

Varastojen vuorovaikutus ja sekoitusohjelmointi T-SQL:n avulla

Muistikirjan resurssit -kansio

Ydintoiminnot

Kirjastonhallinta

Istunnon määrityksen taikakomento

NotebookUtils

Tietoapuohjelmat

Tietojen kyseleminen Lakehousesta

Tietojen kyseleminen varastosta

Koodikatkelmien selaaminen

Semanttinen linkki

Visualisointi

Koodin intelliSense

Datatieteen ominaisuudet

Julkisen esikatselun tunnetut rajoitukset

Palaute

Lisäresursseja

Jaa

Python-käyttökokemuksen käyttäminen muistikirjassa

Python Notebookin käyttäminen

Python-muistikirjojen suorittaminen

Tietojen käsittely

Lakehousen vuorovaikutus

Varastojen vuorovaikutus ja sekoitusohjelmointi T-SQL:n avulla

Muistikirjan resurssit -kansio

Ydintoiminnot

Kirjastonhallinta

Istunnon määrityksen taikakomento

NotebookUtils

Tietoapuohjelmat

Tietojen kyseleminen Lakehousesta

Tietojen kyseleminen varastosta

Koodikatkelmien selaaminen

Semanttinen linkki

Visualisointi

Koodin intelliSense

Datatieteen ominaisuudet

Julkisen esikatselun tunnetut rajoitukset

Aiheeseen liittyvä sisältö

Palaute

Lisäresursseja