Využijte zkušenosti s Pythonem v notebooku
Poznámka
V současné době je tato funkce ve verzi Preview.
Poznámkový blok Pythonu je nový zážitek založený na poznámkovém bloku Fabric. Jedná se o univerzální a interaktivní nástroj navržený pro analýzu dat, vizualizaci a strojové učení. Poskytuje bezproblémové vývojové prostředí pro psaní a spouštění kódu Pythonu. Díky této funkci je nezbytný nástroj pro datové vědce, analytiky a vývojáře BI, zejména pro úlohy zkoumání, které nevyžadují velké objemy dat a distribuované výpočty.
S poznámkovým blokem Pythonu můžete získat:
několik integrovaných jader Pythonu: Poznámkové bloky Pythonu nabízejí čisté prostředí pro kódování přímo v Pythonu, bez použití Sparku, přičemž ve výchozím nastavení jsou dostupné dvě verze jádra Pythonu – Python 3.10 a 3.11. Jsou podporovány nativní funkce ipythonu, jako například iPyWidget a magické příkazy.
Nákladově efektivní: Nový poznámkový blok Pythonu nabízí úsporné výhody spuštěním v clusteru s jedním uzlem s pamětí 2vCores/16 GB ve výchozím nastavení. Toto nastavení zajišťuje efektivní využití zdrojů pro projekty zkoumání dat s menší velikostí dat.
Prostředky & Lakehouse jsou nativně dostupné: Služba Fabric Lakehouse společně s integrovanými prostředky poznámkového bloku jsou plně dostupné v prostředí poznámkového bloku Pythonu. Tato funkce umožňuje uživatelům snadno přenést data do poznámkového bloku Pythonu. Stačí zkusit přetáhnout & a získat fragment kódu.
Propojení programování s T-SQL: Python notebook nabízí snadný způsob interakce s koncovými body datového skladu a SQL v Exploreru. Díky datovému konektoru notebookutils můžete snadno spouštět skripty T-SQL v prostředí Pythonu.
Podpora oblíbených knihoven pro analýzu dat: Notebooky v Pythonu mají předinstalované knihovny, jako jsou DuckDB, Polars a Scikit-learn, a poskytují kompletní sadu nástrojů pro práci s daty, jejich analýzu a strojové učení.
Advanced intellisense: Poznámkový blok Pythonu přijímá Pylance jako intellisense engine spolu s jinou jazykovou službou upravenou pro Fabric s cílem poskytovat vývojářům poznámkových bloků špičkové prostředí pro kódování.
NotebookUtils & sémantický odkaz: Výkonné API sady nástrojů umožňují snadno využívat funkce Fabric a Power BI s přístupem zaměřeným na kód.
Pokročilé možnosti vizualizace: Kromě oblíbených funkcí pro náhled "Table" a "Chart" podporujeme také populární knihovny vizualizací, jako jsou Matplotlib, Seaborn a Plotly. PowerBIClient také podporuje tyto knihovny, které uživatelům pomáhají lépe porozumět vzorům dat a přehledům.
obecné vlastnosti propoznámkový blok Fabric: Všechny vlastnosti na úrovni poznámkového bloku jsou přirozeně použitelné pro poznámkový blok Pythonu, jako jsou funkce úprav, automatické ukládání, spolupráce, sdílení a správa oprávnění, integrace s Gitem, import/export atd.
Kompletní stackové možnosti data science: Pokročilý nástroj s nízkým množstvím kódu Data Wrangler, rámec strojového učení MLFlow a výkonný Copilot jsou k dispozici v Python notebooku.
Přístup k poznámkovému bloku Pythonu
Po otevření Fabric notebooku můžete v rozevírací nabídce jazyka na kartě Domovská přepnout na Python a převést celé nastavení poznámkového bloku do Pythonu.
Většina běžných funkcí je podporovaná jako úroveň poznámkového bloku. Můžete se podívat na Jak používat poznámkové bloky Microsoft Fabric a Vyvíjet, spouštět a spravovat poznámkové bloky Microsoft Fabric, získat podrobné informace o využití. Tady uvádíme některé klíčové funkce specifické pro scénáře Pythonu.
Spouštění poznámkových bloků Pythonu
Poznámkový blok Pythonu podporuje několik způsobů provádění úloh:
- Interaktivní spuštění: Poznámkový blok Pythonu můžete spustit interaktivně jako nativní poznámkový blok Jupyter.
- Naplánovat spuštění: K tomu, abyste spustili Pythonový poznámkový blok jako dávkovou úlohu, můžete na stránce nastavení pro poznámkový blok použít lehké rozhraní plánovače.
- Spuštění kanálu: Poznámkové bloky Pythonu můžete orchestrovat jako aktivity v poznámkových blocích v datového kanálu. Snímek se vygeneruje po spuštění úlohy.
-
Referenční spuštění: Pomocí
notebookutils.notebook.run()
nebonotebookutils.notebook.runMultiple()
můžete v jiném poznámkovém bloku Pythonu odkazovat na spuštění poznámkových bloků Pythonu jako dávkovou úlohu. Po dokončení referenčního spuštění se vygeneruje snímek. - Veřejné rozhraní API spuštění: Pomocí veřejného rozhraní API pro spuštění poznámkového bloku můžete naplánovat běh svého python notebooku, ujistěte se, že vlastnosti jazyka a jádra v metadata v datové části veřejného rozhraní API jsou správně nastavené.
Podrobnosti o spuštění úlohy poznámkového bloku Pythonu můžete sledovat na kartě pásu Spustit ->Zobrazit všechna spuštění.
Interakce s daty
V poznámkovém bloku Pythonu můžete pracovat s Lakehouse, Warehouses, SQL koncovými body a již zabudovanými složkami prostředků.
Interakce datového jezera
Lakehouse můžete nastavit jako výchozí nebo můžete přidat více objektů Lakehouse, abyste je mohli prozkoumat a používat v poznámkových blocích.
Pokud nejste obeznámeni se čtením datových objektů, jako je rozdílová tabulka, zkuste soubor a rozdílovou tabulku přetáhnout na pracovní plochu poznámkového bloku, nebo použijte možnost Načíst data v rozevírací nabídce objektu. Poznámkový blok automaticky vloží fragment kódu do buňky kódu a vygeneruje kód pro čtení cílového datového objektu.
Poznámka
Pokud při načítání velkého objemu dat narazíte na OOM, zkuste místo pandas použít DuckDB, Polars nebo PyArrow.
Operaci write Lakehouse najdete v procházení fragmentu kódu –>Zápis dat do tabulky Delta.
Interakce se skladem a kombinace programování s T-SQL
Datové sklady nebo koncové body SQL můžete přidat z Průzkumníka skladu poznámkového bloku. Podobně můžete tabulky přetáhnout na plátno poznámkového bloku nebo použít klávesové zkratky v rozevírací nabídce tabulky. Notebook automaticky vygeneruje fragment kódu za vás. Pomocí nástrojů notebookutils.data
můžete navázat spojení se sklady a dotazovat se na data pomocí příkazu T-SQL v kontextu Pythonu.
Poznámka
Tady jsou koncové body SQL jen pro čtení.
Složka zdrojů poznámkového bloku
Prostředky poznámkového bloku předdefinované složky prostředků jsou nativně dostupné v poznámkovém bloku Pythonu. Můžete snadno pracovat se soubory ve vestavěné složce prostředků pomocí kódu Pythonu, jako kdybyste pracovali s místním systémem souborů. Složka prostředků prostředí se v současné době nepodporuje.
Operace jádra
Poznámkový blok Pythonu aktuálně podporuje dvě integrovaná jádra: Python 3.10 a Python 3.11. Výchozí jádro je Python 3.11. můžete mezi nimi snadno přepínat.
Na kartě Domů na pásu karet můžete přerušit, restartovat nebo zapnout jádro. Přerušení jádra v poznámkových blocích Pythonu je stejné jako zrušení buňky v poznámkovém bloku Sparku.
Neobvyklé ukončení jádra způsobí přerušení provádění kódu a ztrátu hodnot proměnných, ale nezastaví relaci poznámkového bloku.
Existují příkazy, které můžou vést k tomu, že jádro zemřelo. Například quit(), exit().
Správa knihoven
Pro vložené instalace můžete použít příkazy %pip a %conda, příkazy podporují veřejné knihovny i přizpůsobené knihovny.
U adaptovaných knihoven můžete lib soubory nahrát do složky vestavěných prostředků. Podporujeme více typů knihoven, jako je .whl, .jar, .dll, .pyatd., zkuste přetáhnout&do souboru a fragment kódu se vygeneruje automaticky.
Možná budete muset restartovat jádro, aby bylo možné používat aktualizované balíčky.
Magický příkaz konfigurace relace
Podobně jako při přizpůsobení konfigurace relace Sparku v poznámkovém bloku, můžete v Pythonovém poznámkovém bloku rovněž použít %%configure. Poznámkový blok Pythonu podporuje přizpůsobení velikosti výpočetního uzlu, přípojných bodů a výchozího lakehouse pro relaci poznámkového bloku. Dají se použít v interaktivních poznámkových blocích i v aktivitách poznámkových blocích typu pipeline. Doporučujeme použít %%configure příkaz na začátku poznámkového bloku nebo restartovat relaci poznámkového bloku, aby se nastavení projevilo.
Tady jsou podporované vlastnosti v poznámkovém bloku Pythonu %%configure:
%%configure
{
"vCores": 4, // Recommended values: [4, 8, 16, 32, 64], Fabric will allocate matched memory according to the specified vCores.
"defaultLakehouse": {
// Will overwrites the default lakehouse for current session
"name": "<lakehouse-name>",
"id": "<(optional) lakehouse-id>",
"workspaceId": "<(optional) workspace-id-that-contains-the-lakehouse>" // Add workspace ID if it's from another workspace
},
"mountPoints": [
{
"mountPoint": "/myMountPoint",
"source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path>"
},
{
"mountPoint": "/myMountPoint1",
"source": "abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path1>"
},
],
}
Aktualizace výpočetních prostředků můžete zobrazit na stavovém řádku poznámkového bloku a monitorovat využití procesoru a paměti výpočetního uzlu v reálném čase.
NotebookUtils
Notebook Utilities (NotebookUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy v poznámkovém bloku Fabric. Je předinstalovaný v modulu runtime Pythonu. Můžete použít NotebookUtils k práci se systémy souborů, získávání proměnných prostředí, zřetězení poznámkových bloků, přístupu k externímu úložišti a práci s tajnostmi.
Pomocí notebookutils.help()
můžete zobrazit seznam dostupných rozhraní API a získat také nápovědu k metodám nebo odkazovat na dokumentaci NotebookUtils.
Datové nástroje
Poznámka
V současné době je tato funkce ve verzi Preview.
Pomocí nástrojů notebookutils.data
můžete vytvořit připojení k zadanému zdroji dat a pak číst a dotazovat data pomocí příkazu T-SQL.
Spuštěním následujícího příkazu získejte přehled dostupných metod:
notebookutils.data.help()
Výstup:
Help on module notebookutils.data in notebookutils:
NAME
notebookutils.data - Utility for read/query data from connected data sources in Fabric
FUNCTIONS
connect_to_artifact(artifact: str, workspace: str = '', artifact_type: str = '', **kwargs)
Establishes and returns an ODBC connection to a specified artifact within a workspace
for subsequent data queries using T-SQL.
:param artifact: The name or ID of the artifact to connect to.
:param workspace: Optional; The workspace in which the provided artifact is located, if not provided,
use the workspace where the current notebook is located.
:param artifactType: Optional; The type of the artifact, Currently supported type are Lakehouse, Warehouse and MirroredDatabase.
If not provided, the method will try to determine the type automatically.
:param **kwargs Optional: Additional optional configuration. Supported keys include:
- tds_endpoint : Allow user to specify a custom TDS endpoint to use for connection.
:return: A connection object to the specified artifact.
:raises UnsupportedArtifactException: If the specified artifact type is not supported to connect.
:raises ArtifactNotFoundException: If the specified artifact is not found within the workspace.
Examples:
sql_query = "SELECT DB_NAME()"
with notebookutils.data.connect_to_artifact("ARTIFACT_NAME_OR_ID", "WORKSPACE_ID", "ARTIFACT_TYPE") as conn:
df = conn.query(sql_query)
display(df)
help(method_name: str = '') -> None
Provides help for the notebookutils.data module or the specified method.
Examples:
notebookutils.data.help()
notebookutils.data.help("connect_to_artifact")
:param method_name: The name of the method to get help with.
DATA
__all__ = ['help', 'connect_to_artifact']
FILE
/home/trusted-service-user/jupyter-env/python3.10/lib/python3.10/site-packages/notebookutils/data.py
Dotazování dat z Lakehouse
conn = notebookutils.data.connect_to_artifact("lakehouse_name_or_id", "optional_workspace_id", "optional_lakehouse_type")
df = conn.query("SELECT * FROM sys.schemas;")
Dotazování dat ze skladu
conn = notebookutils.data.connect_to_artifact("warehouse_name_or_id", "optional_workspace_id", "optional_warehouse_type")
df = conn.query("SELECT * FROM sys.schemas;")
Poznámka
Nástroje pro data v nástrojích NotebookUtils jsou momentálně dostupné jenom v poznámkovém bloku Pythonu.
Procházení fragmentů kódu
Užitečné fragmenty kódu Pythonu najdete na kartě Upravit –>Procházet fragment kódu, jsou teď k dispozici nové ukázky Pythonu. Z fragmentu kódu Pythonu se můžete naučit začít zkoumat poznámkový blok.
Sémantický odkaz
Sémantický odkaz je funkce, která umožňuje navázat spojení mezi sémantickými modely a a Synapse Data Science v Microsoft Fabric. Je nativně podporován v Python notebooku. Technici BI a vývojáři Power BI můžou snadno používat sémantické propojení a spravovat sémantický model. Další informace o Sémantickém odkazu najdete v veřejném dokumentu.
Vizualizace
Kromě kreslení grafů pomocí knihoven vám integrovaná funkce vizualizace umožňuje převádět DataFrames na vizualizace dat v bohatém formátu. Pomocí funkce display() na datových rámech můžete vytvořit bohaté zobrazení tabulky datového rámce a zobrazení grafu.
Poznámka
Konfigurace grafu se zachovají v poznámkovém bloku Pythonu, což znamená, že po opětovném spuštění buňky kódu se schéma cílového datového rámce nezmění, uložené grafy zůstanou zachovány.
IntelliSense kódu
Pythonový notebook integroval Pylance pro vylepšení zážitku z programování v Pythonu. Pylance je výchozí podpora jazykových služeb pro Python v editoru Visual Studio Code. Poskytuje mnoho snadno použitelných funkcí, jako jsou zvýraznění klíčových slov, rychlé informace, dokončování kódu, informace o parametrech a detekce chyb syntaxe. Pylance má navíc lepší výkon, když je poznámkový blok dlouhý.
Možnosti datových věd
Navštivte dokumentaci pro datové vědy v Microsoft Fabric a dozvězte se více o zkušenostech s datovými vědami a AI ve Fabric. Tady uvádíme několik klíčových funkcí datových věd, které jsou nativně podporovány v poznámkovém bloku Pythonu.
data Wrangler: Data Wrangler je nástroj založený na poznámkovém bloku, který poskytuje imerzivní rozhraní pro průzkumovou analýzu dat. Tato funkce kombinuje zobrazení dat podobných mřížce s dynamickými souhrnnými statistikami, integrovanými vizualizacemi a knihovnou běžných operací čištění dat. Poskytuje čištění dat, transformaci a integraci dat, což urychluje přípravu dat pomocí služby Data Wrangler.
MLflow: Experiment strojového učení je primární jednotkou organizace a řízení všech souvisejících spuštění strojového učení. Spuštění odpovídá jedinému spuštění kódu modelu.
automatické protokolování prostředků infrastruktury: Datové vědy Synapse v Microsoft Fabric zahrnují automatické protokolování, což výrazně snižuje množství kódu potřebného k automatickému protokolování parametrů, metrik a položek modelu strojového učení během trénování.
Automatické přihlašování rozšiřuje možnosti sledování MLflow. Automatické přihlašování může zaznamenávat různé metriky, včetně přesnosti, ztráty, skóre F1 a vlastních metrik, které definujete. Díky automatickému přihlašování můžou vývojáři a datoví vědci snadno sledovat a porovnávat výkon různých modelů a experimentů bez ručního sledování.
Copilot: Copilot for Data Science and Data Engineering Notebooks je pomocník umělé inteligence, který vám pomůže analyzovat a vizualizovat data. Funguje s tabulkami Lakehouse, datovými rámcemi Power BI a pandas/spark a poskytuje odpovědi a fragmenty kódu přímo v poznámkovém bloku. V poznámkovém bloku můžete použít panel chatu Copilot a Char-magics, přičemž AI poskytuje odpovědi nebo kód, který můžete zkopírovat do svého poznámkového bloku.
Známá omezení verze Public Preview
Není zaručeno, že při každém spuštění poznámkového bloku v Pythonu bude k dispozici živé připojení. Čas spuštění relace může trvat až 3 minuty, pokud se spuštění poznámkového bloku nedotkne živého fondu. S rostoucím využitím poznámkových bloků Pythonu naše inteligentní metody sdružování postupně zvyšují přidělení živého fondu tak, aby splňovaly poptávku.
Integrace prostředí není v poznámkovém bloku Pythonu ve verzi Public Preview dostupná.
Nastavení časového limitu relace není pro tuto chvíli dostupné.
Copilot může generovat příkaz Sparku, který se nemusí spustit v poznámkovém bloku Pythonu.
V současné době není Copilot v poznámkovém bloku Pythonu plně podporovaný v několika regionech. Proces nasazení stále probíhá, zůstaňte s námi, protože pokračujeme v zavádění podpory v dalších oblastech.