Klassieke Jupyter Notebook gebruiken met Databricks Connect voor Python
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt beschreven hoe u Databricks Connect voor Python gebruikt met klassieke Jupyter Notebook. Met Databricks Connect kunt u populaire notebookservers, IDE's en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Notitie
Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client instellen.
Als u Databricks Connect wilt gebruiken met klassieke Jupyter Notebook en Python, volgt u deze instructies.
Als u klassieke Jupyter Notebook wilt installeren, voert u de volgende opdracht uit vanaf uw terminal of opdrachtprompt, waarbij uw virtuele Python-omgeving is geactiveerd:
pip3 install notebook
Als u klassieke Jupyter Notebook in uw webbrowser wilt starten, voert u de volgende opdracht uit vanuit uw geactiveerde virtuele Python-omgeving:
jupyter notebook
Als de klassieke Jupyter Notebook niet wordt weergegeven in uw webbrowser, kopieert u de URL die begint met
localhost
of127.0.0.1
vanuit uw virtuele omgeving en voert u deze in de adresbalk van uw webbrowser in.Maak een nieuw notebook: klik in de klassieke Jupyter Notebook op het tabblad Bestanden op Nieuw > Python 3 (ipykernel).
Voer in de eerste cel van het notitieblok de voorbeeldcode of uw eigen code in. Als u uw eigen code gebruikt, moet u minimaal initialiseren
DatabricksSession
zoals wordt weergegeven in de voorbeeldcode.Als u het notitieblok wilt uitvoeren, klikt u op Cel > alles uitvoeren. Alle Python-code wordt lokaal uitgevoerd, terwijl alle PySpark-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale beller.
Als u fouten in het notebook wilt opsporen, voegt u de volgende coderegel toe aan het begin van uw notebook:
from IPython.core.debugger import set_trace
En roep vervolgens
set_trace()
aan om foutopsporingsinstructies op dat moment van notebookuitvoering in te voeren. Alle Python-code wordt lokaal opgespoord, terwijl alle PySpark-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.Als u de klassieke Jupyter Notebook wilt afsluiten, klikt u op Bestand > sluiten en stoppen. Als het klassieke Jupyter Notebook-proces nog steeds wordt uitgevoerd in uw terminal of opdrachtprompt, stopt u dit proces door op te drukken
Ctrl + c
en vervolgensy
te bevestigen.