Использование Visual Studio Code с Databricks Connect для Python
Примечание.
В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.
В этой статье описывается, как использовать Databricks Connect для Python с Visual Studio Code. Databricks Connect позволяет подключать популярные идентификаторы, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?". Сведения о версии Scala этой статьи см. в разделе "Использование Visual Studio Code с Databricks Connect для Scala".
Примечание.
Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.
Совет
Расширение Databricks для Visual Studio Code уже имеет встроенную поддержку Databricks Connect для Databricks Runtime 13.3 LTS и выше. См . код отладки с помощью Databricks Connect для расширения Databricks для Visual Studio Code.
Чтобы использовать Databricks Connect с Visual Studio Code и Python, следуйте этим инструкциям.
Запустите Visual Studio Code.
Откройте папку, содержащую виртуальную среду Python (открыть файл>).
В терминале Visual Studio Code (просмотр > терминала) активируйте виртуальную среду.
Задайте для текущего интерпретатора Python значение, на которое ссылается виртуальная среда:
- В палитре команд (> команд представления) введите
Python: Select Interpreter
и нажмите клавишу ВВОД. - Выберите путь к интерпретатору Python, на который ссылается виртуальная среда.
- В палитре команд (> команд представления) введите
Добавьте в папку файл кода Python,
.py
содержащий пример кода или собственный код. При использовании собственного кода необходимо инициализироватьDatabricksSession
, как показано в примере кода.Чтобы запустить код, нажмите кнопку "Выполнить > без отладки" в главном меню. Весь код Python выполняется локально, в то время как весь код PySpark с участием операций DataFrame выполняется в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.
Чтобы выполнить отладку кода, выполните следующие действия.
- При открытии файла кода Python задайте все точки останова, в которых код будет приостановлен во время выполнения.
- Щелкните значок "Запуск и отладка" на боковой панели или нажмите кнопку "Просмотреть > запуск" в главном меню.
- В представлении "Запуск и отладка " нажмите кнопку "Запуск и отладка ".
- Следуйте инструкциям на экране, чтобы начать выполнение и отладку кода.
Весь код Python отлаживается локально, а весь код PySpark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.
Дополнительные инструкции по выполнению и отладке см. в разделе "Настройка и запуск отладчика " и отладки Python в VS Code.