JupyterLab gebruiken met Databricks Connect voor Python
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt beschreven hoe u Databricks Connect voor Python gebruikt met JupyterLab. Met Databricks Connect kunt u populaire notebookservers, IDE's en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Notitie
Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client instellen.
Als u Databricks Connect wilt gebruiken met JupyterLab en Python, volgt u deze instructies.
Als u JupyterLab wilt installeren, voert u de volgende opdracht uit vanaf uw terminal of opdrachtprompt, terwijl uw virtuele Python-omgeving is geactiveerd:
pip3 install jupyterlab
Als u JupyterLab in uw webbrowser wilt starten, voert u de volgende opdracht uit vanuit uw geactiveerde virtuele Python-omgeving:
jupyter lab
Als JupyterLab niet wordt weergegeven in uw webbrowser, kopieert u de URL die begint met
localhost
of127.0.0.1
vanuit uw virtuele omgeving en voert u deze in de adresbalk van uw webbrowser in.Maak een nieuw notitieblok: klik in JupyterLab op Bestand nieuw notitieblok in het hoofdmenu, selecteer Python 3 (ipykernel) en klik op Selecteren.> >
Voer in de eerste cel van het notitieblok de voorbeeldcode of uw eigen code in. Als u uw eigen code gebruikt, moet u minimaal initialiseren
DatabricksSession
zoals wordt weergegeven in de voorbeeldcode.Klik op Alle > cellen uitvoeren om het notebook uit te voeren. Alle code wordt lokaal uitgevoerd, terwijl alle code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.
Als u fouten in het notebook wilt opsporen, klikt u op het foutpictogram (Foutopsporingsprogramma inschakelen) naast Python 3 (ipykernel) in de werkbalk van het notitieblok. Stel een of meer onderbrekingspunten in en klik vervolgens op Alle > cellen uitvoeren. Alle code wordt lokaal opgespoord, terwijl alle Spark-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.
Als u JupyterLab wilt afsluiten, klikt u op Bestand > afsluiten. Als het JupyterLab-proces nog steeds wordt uitgevoerd in uw terminal of opdrachtprompt, stopt u dit proces door op te drukken
Ctrl + c
en vervolgensy
te bevestigen.
Zie Foutopsporingsprogramma voor specifiekere instructies voor foutopsporing.