Выполнение и отладка ячеек записной книжки с помощью Databricks Connect с помощью расширения Databricks для Visual Studio Code

Статья
10/16/2024

Вы можете запускать и отлаживать записные книжки, одну ячейку одновременно или все ячейки и просматривать результаты в пользовательском интерфейсе Visual Studio Code с помощью расширения Databricks для интеграции Visual Studio Code Databricks Connect. Весь код выполняется локально, а все коды, связанные с операциями DataFrame, выполняются в кластере в удаленной рабочей области Azure Databricks и отправляются обратно в локальный вызывающий объект. Весь код выполняется локально, а весь код Spark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.

Примечание.

Эта функция работает с Databricks Runtime 13.3 и выше.

Чтобы включить интеграцию Databricks Connect для записных книжек в расширении Databricks для Visual Studio Code, необходимо установить Databricks Connect в расширении Databricks для Visual Studio Code. См . код отладки с помощью Databricks Connect для расширения Databricks для Visual Studio Code.

Запуск ячеек записной книжки Python

Для записных книжек с именами файлов с .py расширением при открытии записной книжки в интегрированной среде разработки Visual Studio Code каждая ячейка отображает кнопки "Выполнить ячейку", "Запустить выше" и "Отладить ячейку ". При запуске ячейки его результаты отображаются на отдельной вкладке в интегрированной среде разработки. При отладке в отладочной ячейке отображаются кнопки "Продолжить", "Остановить" и "Пошаговая кнопка". При отладке ячейки можно использовать функции отладки Visual Studio Code, такие как просмотр состояний переменных и просмотр стека вызовов и консоли отладки.

Для записных книжек с именами файлов с .ipynb расширением при открытии записной книжки в интегрированной среде разработки Visual Studio Code записная книжка и ее ячейки содержат дополнительные функции. См. статью "Выполнение ячеек" и "Работа с ячейками кода" в редакторе записных книжек.

Дополнительные сведения о форматах записных книжек для имен файлов с .py.ipynb расширениями см. в статье "Экспорт и импорт записных книжек Databricks".

Запуск ячеек Jupyter Jupyter Noteboook для Python

Выполнение или отладка записной книжки Python Jupyter (.ipynb):

В проекте откройте записную книжку Python Jupyter, которую вы хотите запустить или отладить. Убедитесь, что файл Python находится в формате записной книжки Jupyter и имеет расширение .ipynb.

Совет

Вы можете создать записную книжку Python Jupyter, выполнив >команду Create: New Jupyter Notebook из палитры команд.
Нажмите Запустить все ячейки, чтобы запустить все ячейки без отладки, Выполнить ячейку, чтобы запустить отдельную соответствующую ячейку без отладки, или Выполнить построчно, чтобы выполнить отдельные строки ячейки поочередно с ограниченной отладкой, со значениями переменных, отображаемыми на панели Jupyter (View > Open View > Jupyter).

Для полной отладки в отдельной ячейке установите точки останова, а затем нажмите "Отладка ячейки" в меню рядом с кнопкой "Запустить" .

Щелкнув любой из этих параметров, может появиться запрос на установку отсутствующих зависимостей пакета записной книжки Python Jupyter. Щелкните, чтобы установить его.

Дополнительные сведения см. в разделе Jupyter Notebook в VS Code.

Глобальные записные книжки

Кроме того, включены следующие глобальные записные книжки:

spark, представляющий экземпляр databricks.connect.DatabricksSession, предварительно настроен для создания экземпляра DatabricksSession путем получения учетных данных проверки подлинности Azure Databricks из расширения. Если DatabricksSession экземпляр уже создан в коде ячейки записной книжки, вместо этого используются эти DatabricksSession параметры. Примеры кода для Databricks Connect для Python.
udf, предварительно настроенный в качестве псевдонима для , который является псевдонимом pyspark.sql.functions.udfдля определяемых пользователем пользователей Python. См . раздел pyspark.sql.functions.udf.
sql, предварительно настроенный в качестве псевдонима для spark.sql. sparkКак описано ранее, представляет предварительно настроенный экземпляр databricks.connect.DatabricksSession. См. статью Spark SQL.
dbutils, предварительно настроенный как экземпляр служебных программ Databricks, который импортируется из databricks-sdk и создается с использованием учетных данных для аутентификации Azure Databricks из расширения. См. раздел "Использование служебных программ Databricks".
Примечание.

Для записных книжек с Databricks Connect поддерживается только подмножество служебных программ Databricks.

Чтобы включить dbutils.widgets, сначала необходимо установить пакет SDK Databricks для Python, выполнив следующую команду в терминале локального компьютера разработки:
```
pip install 'databricks-sdk[notebook]'
```
display, предварительно настроенный в качестве псевдонима для встроенного IPython.display.displayJupyter. См. раздел IPython.display.display.
displayHTML, предварительно настроенный как псевдоним для dbruntime.display.displayHTML, который является псевдонимом дляdisplay.HTML.ipython См . IPython.display.html.

Магия записной книжки

Также включены следующие магии записной книжки:

%fs— то же самое, что и при вызове dbutils.fs . См. раздел " Смешивание языков".
%sh, который выполняет команду с помощью магии %%script ячейки на локальном компьютере. Эта команда не выполняется в удаленной рабочей области Azure Databricks. См. раздел " Смешивание языков".
%md и %md-sandbox, который запускает магию %%markdownячейки. См. раздел " Смешивание языков".
%sql, который выполняется spark.sql. См. раздел " Смешивание языков".
%pip, который выполняется pip install на локальном компьютере. Это не выполняется pip install в удаленной рабочей области Azure Databricks. См. раздел "Управление библиотеками" с помощью команд %pip.
%run, который запускает другую записную книжку. См. , чтобы организовать записные книжки и модульно структурировать код в записных книжках.
Примечание.

Чтобы включить %run, необходимо сначала установить библиотеку nbformat , выполнив следующую команду в терминале локального компьютера разработки:
```
pip install nbformat
```

К дополнительным функциям, которые включены, относятся:

Кадры данных Spark преобразуются в кадры данных pandas, которые отображаются в формате таблицы Jupyter.

Ограничения

Ограничения запуска ячеек в записных книжках в Visual Studio Code:

При вызове записные книжки %r%scala не поддерживаются и отображаются ошибки. См. раздел " Смешивание языков".
Магия записной книжки %sql не поддерживает некоторые команды DML, например Показать таблицы.

Поделиться через