Поделиться через


Использование классической записной книжки Jupyter Notebook с Databricks Connect для Python

Примечание.

В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.

В этой статье описывается, как использовать Databricks Connect для Python с классической записной книжкой Jupyter Notebook. Databricks Connect позволяет подключать популярные серверы записных книжек, идентификаторы и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".

Примечание.

Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.

Чтобы использовать Databricks Connect с классической записной книжкой Jupyter и Python, следуйте этим инструкциям.

  1. Чтобы установить классическую записную книжку Jupyter Notebook с активированной виртуальной средой Python, выполните следующую команду из терминала или командной строки:

    pip3 install notebook
    
  2. Чтобы запустить классическую записную книжку Jupyter Notebook в веб-браузере, выполните следующую команду из активированной виртуальной среды Python:

    jupyter notebook
    

    Если классическая записная книжка Jupyter Notebook не отображается в веб-браузере, скопируйте URL-адрес, который начинается или localhost127.0.0.1 из виртуальной среды, и введите его в адресную строку веб-браузера.

  3. Создайте записную книжку: в классической записной книжке Jupyter Notebook на вкладке "Файлы" щелкните Создать > Python 3 (ipykernel).

  4. В первой ячейке записной книжки введите пример кода или собственный код. При использовании собственного кода необходимо инициализировать DatabricksSession , как показано в примере кода.

  5. Чтобы запустить записную книжку, нажмите кнопку > ячейки". Весь код Python выполняется локально, в то время как весь код PySpark с участием операций DataFrame выполняется в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.

  6. Чтобы выполнить отладку записной книжки, добавьте следующую строку кода в начале записной книжки:

    from IPython.core.debugger import set_trace

    Затем вызовите set_trace() инструкции отладки в этой точке выполнения записной книжки. Весь код Python отлаживается локально, а весь код PySpark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.

  7. Чтобы завершить работу классической записной книжки Jupyter, нажмите кнопку "Закрыть файл>" и "Остановить". Если классический процесс Jupyter Notebook по-прежнему выполняется в терминале или командной строке, остановите этот процесс, нажав Ctrl + c и введя y для подтверждения.