Sdílet prostřednictvím


Využijte zkušenosti s Pythonem v notebooku

Poznámka

V současné době je tato funkce ve verzi Preview.

Poznámkový blok Pythonu je nový zážitek založený na poznámkovém bloku Fabric. Jedná se o univerzální a interaktivní nástroj navržený pro analýzu dat, vizualizaci a strojové učení. Poskytuje bezproblémové vývojové prostředí pro psaní a spouštění kódu Pythonu. Díky této funkci je nezbytný nástroj pro datové vědce, analytiky a vývojáře BI, zejména pro úlohy zkoumání, které nevyžadují velké objemy dat a distribuované výpočty.

S poznámkovým blokem Pythonu můžete získat:

  • několik integrovaných jader Pythonu: Poznámkové bloky Pythonu nabízejí čisté prostředí pro kódování přímo v Pythonu, bez použití Sparku, přičemž ve výchozím nastavení jsou dostupné dvě verze jádra Pythonu – Python 3.10 a 3.11. Jsou podporovány nativní funkce ipythonu, jako například iPyWidget a magické příkazy.

  • Nákladově efektivní: Nový poznámkový blok Pythonu nabízí úsporné výhody spuštěním v clusteru s jedním uzlem s pamětí 2vCores/16 GB ve výchozím nastavení. Toto nastavení zajišťuje efektivní využití zdrojů pro projekty zkoumání dat s menší velikostí dat.

  • Prostředky & Lakehouse jsou nativně dostupné: Služba Fabric Lakehouse společně s integrovanými prostředky poznámkového bloku jsou plně dostupné v prostředí poznámkového bloku Pythonu. Tato funkce umožňuje uživatelům snadno přenést data do poznámkového bloku Pythonu. Stačí zkusit přetáhnout & a získat fragment kódu.

  • Propojení programování s T-SQL: Python notebook nabízí snadný způsob interakce s koncovými body datového skladu a SQL v Exploreru. Díky datovému konektoru notebookutils můžete snadno spouštět skripty T-SQL v prostředí Pythonu.

  • Podpora oblíbených knihoven pro analýzu dat: Notebooky v Pythonu mají předinstalované knihovny, jako jsou DuckDB, Polars a Scikit-learn, a poskytují kompletní sadu nástrojů pro práci s daty, jejich analýzu a strojové učení.

  • Advanced intellisense: Poznámkový blok Pythonu přijímá Pylance jako intellisense engine spolu s jinou jazykovou službou upravenou pro Fabric s cílem poskytovat vývojářům poznámkových bloků špičkové prostředí pro kódování.

  • NotebookUtils & sémantický odkaz: Výkonné API sady nástrojů umožňují snadno využívat funkce Fabric a Power BI s přístupem zaměřeným na kód.

  • Pokročilé možnosti vizualizace: Kromě oblíbených funkcí pro náhled "Table" a "Chart" podporujeme také populární knihovny vizualizací, jako jsou Matplotlib, Seaborn a Plotly. PowerBIClient také podporuje tyto knihovny, které uživatelům pomáhají lépe porozumět vzorům dat a přehledům.

  • obecné vlastnosti propoznámkový blok Fabric: Všechny vlastnosti na úrovni poznámkového bloku jsou přirozeně použitelné pro poznámkový blok Pythonu, jako jsou funkce úprav, automatické ukládání, spolupráce, sdílení a správa oprávnění, integrace s Gitem, import/export atd.

  • Kompletní stackové možnosti data science: Pokročilý nástroj s nízkým množstvím kódu Data Wrangler, rámec strojového učení MLFlow a výkonný Copilot jsou k dispozici v Python notebooku.

Přístup k poznámkovému bloku Pythonu

Po otevření Fabric notebooku můžete v rozevírací nabídce jazyka na kartě Domovská přepnout na Python a převést celé nastavení poznámkového bloku do Pythonu.

Snímek obrazovky znázorňující přepnutí do Pythonu z jazykové nabídky poznámkového bloku

Většina běžných funkcí je podporovaná jako úroveň poznámkového bloku. Můžete se podívat na Jak používat poznámkové bloky Microsoft Fabric a Vyvíjet, spouštět a spravovat poznámkové bloky Microsoft Fabric, získat podrobné informace o využití. Tady uvádíme některé klíčové funkce specifické pro scénáře Pythonu.

Spouštění poznámkových bloků Pythonu

Poznámkový blok Pythonu podporuje několik způsobů provádění úloh:

  • Interaktivní spuštění: Poznámkový blok Pythonu můžete spustit interaktivně jako nativní poznámkový blok Jupyter.
  • Naplánovat spuštění: K tomu, abyste spustili Pythonový poznámkový blok jako dávkovou úlohu, můžete na stránce nastavení pro poznámkový blok použít lehké rozhraní plánovače.
  • Spuštění kanálu: Poznámkové bloky Pythonu můžete orchestrovat jako aktivity v poznámkových blocích v datového kanálu. Snímek se vygeneruje po spuštění úlohy.
  • Referenční spuštění: Pomocí notebookutils.notebook.run() nebo notebookutils.notebook.runMultiple() můžete v jiném poznámkovém bloku Pythonu odkazovat na spuštění poznámkových bloků Pythonu jako dávkovou úlohu. Po dokončení referenčního spuštění se vygeneruje snímek.
  • Veřejné rozhraní API spuštění: Pomocí veřejného rozhraní API pro spuštění poznámkového bloku můžete naplánovat běh svého python notebooku, ujistěte se, že vlastnosti jazyka a jádra v metadata v datové části veřejného rozhraní API jsou správně nastavené.

Podrobnosti o spuštění úlohy poznámkového bloku Pythonu můžete sledovat na kartě pásu Spustit ->Zobrazit všechna spuštění.

Interakce s daty

V poznámkovém bloku Pythonu můžete pracovat s Lakehouse, Warehouses, SQL koncovými body a již zabudovanými složkami prostředků.

Interakce datového jezera

Lakehouse můžete nastavit jako výchozí nebo můžete přidat více objektů Lakehouse, abyste je mohli prozkoumat a používat v poznámkových blocích.

Pokud nejste obeznámeni se čtením datových objektů, jako je rozdílová tabulka, zkuste soubor a rozdílovou tabulku přetáhnout na pracovní plochu poznámkového bloku, nebo použijte možnost Načíst data v rozevírací nabídce objektu. Poznámkový blok automaticky vloží fragment kódu do buňky kódu a vygeneruje kód pro čtení cílového datového objektu.

Poznámka

Pokud při načítání velkého objemu dat narazíte na OOM, zkuste místo pandas použít DuckDB, Polars nebo PyArrow.

Operaci write Lakehouse najdete v procházení fragmentu kódu –>Zápis dat do tabulky Delta.

snímek obrazovky znázorňující operaci write lakehouse

Interakce se skladem a kombinace programování s T-SQL

Datové sklady nebo koncové body SQL můžete přidat z Průzkumníka skladu poznámkového bloku. Podobně můžete tabulky přetáhnout na plátno poznámkového bloku nebo použít klávesové zkratky v rozevírací nabídce tabulky. Notebook automaticky vygeneruje fragment kódu za vás. Pomocí nástrojů notebookutils.data můžete navázat spojení se sklady a dotazovat se na data pomocí příkazu T-SQL v kontextu Pythonu.

Snímek obrazovky zobrazující klávesové zkratky pro tabulku skladu

Poznámka

Tady jsou koncové body SQL jen pro čtení.

Složka zdrojů poznámkového bloku

Prostředky poznámkového bloku předdefinované složky prostředků jsou nativně dostupné v poznámkovém bloku Pythonu. Můžete snadno pracovat se soubory ve vestavěné složce prostředků pomocí kódu Pythonu, jako kdybyste pracovali s místním systémem souborů. Složka prostředků prostředí se v současné době nepodporuje.

Operace jádra

Poznámkový blok Pythonu aktuálně podporuje dvě integrovaná jádra: Python 3.10 a Python 3.11. Výchozí jádro je Python 3.11. můžete mezi nimi snadno přepínat.

Na kartě Domů na pásu karet můžete přerušit, restartovat nebo zapnout jádro. Přerušení jádra v poznámkových blocích Pythonu je stejné jako zrušení buňky v poznámkovém bloku Sparku.

Snímek obrazovky zobrazující operace jádra

Neobvyklé ukončení jádra způsobí přerušení provádění kódu a ztrátu hodnot proměnných, ale nezastaví relaci poznámkového bloku.

Existují příkazy, které můžou vést k tomu, že jádro zemřelo. Například quit(), exit().

Správa knihoven

Pro vložené instalace můžete použít příkazy %pip a %conda, příkazy podporují veřejné knihovny i přizpůsobené knihovny.

U adaptovaných knihoven můžete lib soubory nahrát do složky vestavěných prostředků. Podporujeme více typů knihoven, jako je .whl, .jar, .dll, .pyatd., zkuste přetáhnout&do souboru a fragment kódu se vygeneruje automaticky.

Možná budete muset restartovat jádro, aby bylo možné používat aktualizované balíčky.

Magický příkaz konfigurace relace

Podobně jako při přizpůsobení konfigurace relace Sparku v poznámkovém bloku, můžete v Pythonovém poznámkovém bloku rovněž použít %%configure. Poznámkový blok Pythonu podporuje přizpůsobení velikosti výpočetního uzlu, přípojných bodů a výchozího lakehouse pro relaci poznámkového bloku. Dají se použít v interaktivních poznámkových blocích i v aktivitách poznámkových blocích typu pipeline. Doporučujeme použít %%configure příkaz na začátku poznámkového bloku nebo restartovat relaci poznámkového bloku, aby se nastavení projevilo.

Tady jsou podporované vlastnosti v poznámkovém bloku Pythonu %%configure:

%%configure
{
    "vCores": 4, // Recommended values: [4, 8, 16, 32, 64], Fabric will allocate matched memory according to the specified vCores.
    "defaultLakehouse": {  
        // Will overwrites the default lakehouse for current session
        "name": "<lakehouse-name>",
        "id": "<(optional) lakehouse-id>",
        "workspaceId": "<(optional) workspace-id-that-contains-the-lakehouse>" // Add workspace ID if it's from another workspace
    },
    "mountPoints": [
        {
            "mountPoint": "/myMountPoint",
            "source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path>"
        },
        {
            "mountPoint": "/myMountPoint1",
            "source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path1>"
        },
    ],
}

Aktualizace výpočetních prostředků můžete zobrazit na stavovém řádku poznámkového bloku a monitorovat využití procesoru a paměti výpočetního uzlu v reálném čase.

Snímek obrazovky znázorňující aktualizaci výpočetních prostředků

NotebookUtils

Notebook Utilities (NotebookUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy v poznámkovém bloku Fabric. Je předinstalovaný v modulu runtime Pythonu. Můžete použít NotebookUtils k práci se systémy souborů, získávání proměnných prostředí, zřetězení poznámkových bloků, přístupu k externímu úložišti a práci s tajnostmi.

Pomocí notebookutils.help() můžete zobrazit seznam dostupných rozhraní API a získat také nápovědu k metodám nebo odkazovat na dokumentaci NotebookUtils.

Datové nástroje

Poznámka

V současné době je tato funkce ve verzi Preview.

Pomocí nástrojů notebookutils.data můžete vytvořit připojení k zadanému zdroji dat a pak číst a dotazovat data pomocí příkazu T-SQL.

Spuštěním následujícího příkazu získejte přehled dostupných metod:

notebookutils.data.help()

Výstup:

Help on module notebookutils.data in notebookutils:

NAME
    notebookutils.data - Utility for read/query data from connected data sources in Fabric

FUNCTIONS
    connect_to_artifact(artifact: str, workspace: str = '', artifact_type: str = '', **kwargs)
        Establishes and returns an ODBC connection to a specified artifact within a workspace 
        for subsequent data queries using T-SQL.
        
        :param artifact: The name or ID of the artifact to connect to.
        :param workspace:  Optional; The workspace in which the provided artifact is located, if not provided,
                             use the workspace where the current notebook is located.
        :param artifactType: Optional; The type of the artifact, Currently supported type are Lakehouse, Warehouse and MirroredDatabase. 
                                If not provided, the method will try to determine the type automatically.
        :param **kwargs Optional: Additional optional configuration. Supported keys include:
            - tds_endpoint : Allow user to specify a custom TDS endpoint to use for connection.
        :return: A connection object to the specified artifact.
        
        :raises UnsupportedArtifactException: If the specified artifact type is not supported to connect.
        :raises ArtifactNotFoundException: If the specified artifact is not found within the workspace.
        
        Examples:
            sql_query = "SELECT DB_NAME()"
            with notebookutils.data.connect_to_artifact("ARTIFACT_NAME_OR_ID", "WORKSPACE_ID", "ARTIFACT_TYPE") as conn:
                df = conn.query(sql_query)
                display(df)
    
    help(method_name: str = '') -> None
        Provides help for the notebookutils.data module or the specified method.
        
        Examples:
        notebookutils.data.help()
        notebookutils.data.help("connect_to_artifact")
        :param method_name: The name of the method to get help with.

DATA
    __all__ = ['help', 'connect_to_artifact']

FILE
    /home/trusted-service-user/jupyter-env/python3.10/lib/python3.10/site-packages/notebookutils/data.py

Dotazování dat z Lakehouse

conn = notebookutils.data.connect_to_artifact("lakehouse_name_or_id", "optional_workspace_id", "optional_lakehouse_type")
df = conn.query("SELECT * FROM sys.schemas;")

Dotazování dat ze skladu

conn = notebookutils.data.connect_to_artifact("warehouse_name_or_id", "optional_workspace_id", "optional_warehouse_type")
df = conn.query("SELECT * FROM sys.schemas;")

Poznámka

Nástroje pro data v nástrojích NotebookUtils jsou momentálně dostupné jenom v poznámkovém bloku Pythonu.

Procházení fragmentů kódu

Užitečné fragmenty kódu Pythonu najdete na kartě Upravit –>Procházet fragment kódu, jsou teď k dispozici nové ukázky Pythonu. Z fragmentu kódu Pythonu se můžete naučit začít zkoumat poznámkový blok.

Snímek obrazovky ukazující, kde procházet fragmenty kódu Pythonu

Sémantický odkaz je funkce, která umožňuje navázat spojení mezi sémantickými modely a a Synapse Data Science v Microsoft Fabric. Je nativně podporován v Python notebooku. Technici BI a vývojáři Power BI můžou snadno používat sémantické propojení a spravovat sémantický model. Další informace o Sémantickém odkazu najdete v veřejném dokumentu.

Vizualizace

Kromě kreslení grafů pomocí knihoven vám integrovaná funkce vizualizace umožňuje převádět DataFrames na vizualizace dat v bohatém formátu. Pomocí funkce display() na datových rámech můžete vytvořit bohaté zobrazení tabulky datového rámce a zobrazení grafu.

snímek obrazovky znázorňující prostředí vizualizace v poznámkovém bloku Pythonu

Poznámka

Konfigurace grafu se zachovají v poznámkovém bloku Pythonu, což znamená, že po opětovném spuštění buňky kódu se schéma cílového datového rámce nezmění, uložené grafy zůstanou zachovány.

IntelliSense kódu

Pythonový notebook integroval Pylance pro vylepšení zážitku z programování v Pythonu. Pylance je výchozí podpora jazykových služeb pro Python v editoru Visual Studio Code. Poskytuje mnoho snadno použitelných funkcí, jako jsou zvýraznění klíčových slov, rychlé informace, dokončování kódu, informace o parametrech a detekce chyb syntaxe. Pylance má navíc lepší výkon, když je poznámkový blok dlouhý.

Možnosti datových věd

Navštivte dokumentaci pro datové vědy v Microsoft Fabric a dozvězte se více o zkušenostech s datovými vědami a AI ve Fabric. Tady uvádíme několik klíčových funkcí datových věd, které jsou nativně podporovány v poznámkovém bloku Pythonu.

  • data Wrangler: Data Wrangler je nástroj založený na poznámkovém bloku, který poskytuje imerzivní rozhraní pro průzkumovou analýzu dat. Tato funkce kombinuje zobrazení dat podobných mřížce s dynamickými souhrnnými statistikami, integrovanými vizualizacemi a knihovnou běžných operací čištění dat. Poskytuje čištění dat, transformaci a integraci dat, což urychluje přípravu dat pomocí služby Data Wrangler.

  • MLflow: Experiment strojového učení je primární jednotkou organizace a řízení všech souvisejících spuštění strojového učení. Spuštění odpovídá jedinému spuštění kódu modelu.

  • automatické protokolování prostředků infrastruktury: Datové vědy Synapse v Microsoft Fabric zahrnují automatické protokolování, což výrazně snižuje množství kódu potřebného k automatickému protokolování parametrů, metrik a položek modelu strojového učení během trénování.

    Automatické přihlašování rozšiřuje možnosti sledování MLflow. Automatické přihlašování může zaznamenávat různé metriky, včetně přesnosti, ztráty, skóre F1 a vlastních metrik, které definujete. Díky automatickému přihlašování můžou vývojáři a datoví vědci snadno sledovat a porovnávat výkon různých modelů a experimentů bez ručního sledování.

  • Copilot: Copilot for Data Science and Data Engineering Notebooks je pomocník umělé inteligence, který vám pomůže analyzovat a vizualizovat data. Funguje s tabulkami Lakehouse, datovými rámcemi Power BI a pandas/spark a poskytuje odpovědi a fragmenty kódu přímo v poznámkovém bloku. V poznámkovém bloku můžete použít panel chatu Copilot a Char-magics, přičemž AI poskytuje odpovědi nebo kód, který můžete zkopírovat do svého poznámkového bloku.

Známá omezení verze Public Preview

  • Není zaručeno, že při každém spuštění poznámkového bloku v Pythonu bude k dispozici živé připojení. Čas spuštění relace může trvat až 3 minuty, pokud se spuštění poznámkového bloku nedotkne živého fondu. S rostoucím využitím poznámkových bloků Pythonu naše inteligentní metody sdružování postupně zvyšují přidělení živého fondu tak, aby splňovaly poptávku.

  • Integrace prostředí není v poznámkovém bloku Pythonu ve verzi Public Preview dostupná.

  • Nastavení časového limitu relace není pro tuto chvíli dostupné.

  • Copilot může generovat příkaz Sparku, který se nemusí spustit v poznámkovém bloku Pythonu.

  • V současné době není Copilot v poznámkovém bloku Pythonu plně podporovaný v několika regionech. Proces nasazení stále probíhá, zůstaňte s námi, protože pokračujeme v zavádění podpory v dalších oblastech.