Использование классической записной книжки Jupyter Notebook с Databricks Connect для Python
Примечание.
В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.
В этой статье описывается, как использовать Databricks Connect для Python с классической записной книжкой Jupyter Notebook. Databricks Connect позволяет подключать популярные серверы записных книжек, идентификаторы и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".
Примечание.
Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.
Чтобы использовать Databricks Connect с классической записной книжкой Jupyter и Python, следуйте этим инструкциям.
Чтобы установить классическую записную книжку Jupyter Notebook с активированной виртуальной средой Python, выполните следующую команду из терминала или командной строки:
pip3 install notebook
Чтобы запустить классическую записную книжку Jupyter Notebook в веб-браузере, выполните следующую команду из активированной виртуальной среды Python:
jupyter notebook
Если классическая записная книжка Jupyter Notebook не отображается в веб-браузере, скопируйте URL-адрес, который начинается или
localhost
127.0.0.1
из виртуальной среды, и введите его в адресную строку веб-браузера.Создайте записную книжку: в классической записной книжке Jupyter Notebook на вкладке "Файлы" щелкните Создать > Python 3 (ipykernel).
В первой ячейке записной книжки введите пример кода или собственный код. При использовании собственного кода необходимо инициализировать
DatabricksSession
, как показано в примере кода.Чтобы запустить записную книжку, нажмите кнопку > ячейки". Весь код Python выполняется локально, в то время как весь код PySpark с участием операций DataFrame выполняется в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.
Чтобы выполнить отладку записной книжки, добавьте следующую строку кода в начале записной книжки:
from IPython.core.debugger import set_trace
Затем вызовите
set_trace()
инструкции отладки в этой точке выполнения записной книжки. Весь код Python отлаживается локально, а весь код PySpark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.Чтобы завершить работу классической записной книжки Jupyter, нажмите кнопку "Закрыть файл>" и "Остановить". Если классический процесс Jupyter Notebook по-прежнему выполняется в терминале или командной строке, остановите этот процесс, нажав
Ctrl + c
и введяy
для подтверждения.