Verwenden von klassischen Jupyter Notebooks mit Databricks Connect für Python
Hinweis
Dieser Artikel behandelt Databricks Connect für Databricks Runtime Version 13.3 LTS und höher.
In diesem Artikel wird beschrieben, wie Databricks Connect für Python mit klassischen Jupyter Notebooks verwendet wird. Mit Databricks Connect können Sie beliebte Notebookserver, IDEs und andere benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?.
Hinweis
Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.
Um Databricks Connect mit klassischem Jupyter Notebook und Python zu verwenden, befolgen Sie diese Anweisungen.
Um das klassische Jupyter Notebook zu installieren, führen Sie bei aktivierter virtueller Python-Umgebung den folgenden Befehl in Ihrem Terminal oder der Eingabeaufforderung aus:
pip3 install notebook
Um das klassische Jupyter Notebook in Ihrem Webbrowser zu starten, führen Sie den folgenden Befehl in Ihrer aktivierten virtuellen Python-Umgebung aus:
jupyter notebook
Wenn das klassische Jupyter Notebook nicht in Ihrem Webbrowser angezeigt wird, kopieren Sie die URL, die mit
localhost
oder127.0.0.1
beginnt, aus Ihrer virtuellen Umgebung, und geben Sie diese in die Adressleiste Ihres Webbrowsers ein.Erstellen eines neuen Notizbuchs: Klicken Sie im klassischen Jupyter Notebook auf der Registerkarte Dateien auf Neu > Python 3 (ipykernel).
Geben Sie in der ersten Zelle des Notebooks entweder den Beispielcode oder Ihren eigenen Code ein. Wenn Sie eigenen Code verwenden, müssen Sie mindestens
DatabricksSession
initialisieren, wie im Beispielcode gezeigt.Um das Notebook auszuführen, klicken Sie auf Zelle > Alle ausführen. Der gesamte Python-Code wird lokal ausgeführt, während der gesamte PySpark-Code, einschließlich DataFrame-Vorgängen, im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Die Ausführungsantworten werden an den lokalen Aufrufer zurückgesendet.
Fügen Sie zum Debuggen des Notebooks die folgende Codezeile am Anfang Ihres Notebooks hinzu:
from IPython.core.debugger import set_trace
Rufen Sie dann
set_trace()
auf, um Debuggenanweisungen an diesem Punkt der Notebookausführung einzugeben. Der gesamte Python-Code wird lokal debuggt, während der gesamte PySpark-Code weiterhin im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Der Kerncode der Spark-Engine kann nicht direkt vom Client aus debuggt werden.Klicken Sie zum Herunterfahren des klassischen Jupyter Notebook auf Datei > Schließen und Anhalten. Wenn der klassische Jupyter Notebook-Prozess weiterhin in Ihrem Terminal oder in der Eingabeaufforderung ausgeführt wird, beenden Sie diesen Prozess, indem Sie
Ctrl + c
drücken und danny
eingeben, um dies zu bestätigen.