Выполнение и отладка ячеек записной книжки с помощью Databricks Connect с помощью расширения Databricks для Visual Studio Code
Вы можете запускать и отлаживать записные книжки, одну ячейку одновременно или все ячейки и просматривать результаты в пользовательском интерфейсе Visual Studio Code с помощью расширения Databricks для интеграции Visual Studio Code Databricks Connect. Весь код выполняется локально, а все коды, связанные с операциями DataFrame, выполняются в кластере в удаленной рабочей области Azure Databricks и отправляются обратно в локальный вызывающий объект. Весь код выполняется локально, а весь код Spark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.
Примечание.
Эта функция работает с Databricks Runtime 13.3 и выше.
Чтобы включить интеграцию Databricks Connect для записных книжек в расширении Databricks для Visual Studio Code, необходимо установить Databricks Connect в расширении Databricks для Visual Studio Code. См . код отладки с помощью Databricks Connect для расширения Databricks для Visual Studio Code.
Запуск ячеек записной книжки Python
Для записных книжек с именами файлов с .py
расширением при открытии записной книжки в интегрированной среде разработки Visual Studio Code каждая ячейка отображает кнопки "Выполнить ячейку", "Запустить выше" и "Отладить ячейку ". При запуске ячейки его результаты отображаются на отдельной вкладке в интегрированной среде разработки. При отладке в отладочной ячейке отображаются кнопки "Продолжить", "Остановить" и "Пошаговая кнопка". При отладке ячейки можно использовать функции отладки Visual Studio Code, такие как просмотр состояний переменных и просмотр стека вызовов и консоли отладки.
Для записных книжек с именами файлов с .ipynb
расширением при открытии записной книжки в интегрированной среде разработки Visual Studio Code записная книжка и ее ячейки содержат дополнительные функции. См. статью "Выполнение ячеек" и "Работа с ячейками кода" в редакторе записных книжек.
Дополнительные сведения о форматах записных книжек для имен файлов с .py
.ipynb
расширениями см. в статье "Экспорт и импорт записных книжек Databricks".
Запуск ячеек Jupyter Jupyter Noteboook для Python
Выполнение или отладка записной книжки Python Jupyter (.ipynb
):
В проекте откройте записную книжку Python Jupyter, которую вы хотите запустить или отладить. Убедитесь, что файл Python находится в формате записной книжки Jupyter и имеет расширение
.ipynb
.Совет
Вы можете создать записную книжку Python Jupyter, выполнив >команду Create: New Jupyter Notebook из палитры команд.
Нажмите Запустить все ячейки, чтобы запустить все ячейки без отладки, Выполнить ячейку, чтобы запустить отдельную соответствующую ячейку без отладки, или Выполнить построчно, чтобы выполнить отдельные строки ячейки поочередно с ограниченной отладкой, со значениями переменных, отображаемыми на панели Jupyter (View > Open View > Jupyter).
Для полной отладки в отдельной ячейке установите точки останова, а затем нажмите "Отладка ячейки" в меню рядом с кнопкой "Запустить" .
Щелкнув любой из этих параметров, может появиться запрос на установку отсутствующих зависимостей пакета записной книжки Python Jupyter. Щелкните, чтобы установить его.
Дополнительные сведения см. в разделе Jupyter Notebook в VS Code.
Глобальные записные книжки
Кроме того, включены следующие глобальные записные книжки:
spark
, представляющий экземплярdatabricks.connect.DatabricksSession
, предварительно настроен для создания экземпляраDatabricksSession
путем получения учетных данных проверки подлинности Azure Databricks из расширения. ЕслиDatabricksSession
экземпляр уже создан в коде ячейки записной книжки, вместо этого используются этиDatabricksSession
параметры. Примеры кода для Databricks Connect для Python.udf
, предварительно настроенный в качестве псевдонима для , который является псевдонимомpyspark.sql.functions.udf
для определяемых пользователем пользователей Python. См . раздел pyspark.sql.functions.udf.sql
, предварительно настроенный в качестве псевдонима дляspark.sql
.spark
Как описано ранее, представляет предварительно настроенный экземплярdatabricks.connect.DatabricksSession
. См. статью Spark SQL.dbutils
, предварительно настроенный как экземпляр служебных программ Databricks, который импортируется изdatabricks-sdk
и создается с использованием учетных данных для аутентификации Azure Databricks из расширения. См. раздел "Использование служебных программ Databricks".Примечание.
Для записных книжек с Databricks Connect поддерживается только подмножество служебных программ Databricks.
Чтобы включить
dbutils.widgets
, сначала необходимо установить пакет SDK Databricks для Python, выполнив следующую команду в терминале локального компьютера разработки:pip install 'databricks-sdk[notebook]'
display
, предварительно настроенный в качестве псевдонима для встроенногоIPython.display.display
Jupyter. См. раздел IPython.display.display.displayHTML
, предварительно настроенный как псевдоним дляdbruntime.display.displayHTML
, который является псевдонимом дляdisplay.HTML
.ipython
См . IPython.display.html.
Магия записной книжки
Также включены следующие магии записной книжки:
%fs
— то же самое, что и при вызовеdbutils.fs
. См. раздел " Смешивание языков".%sh
, который выполняет команду с помощью магии%%script
ячейки на локальном компьютере. Эта команда не выполняется в удаленной рабочей области Azure Databricks. См. раздел " Смешивание языков".%md
и%md-sandbox
, который запускает магию%%markdown
ячейки. См. раздел " Смешивание языков".%sql
, который выполняетсяspark.sql
. См. раздел " Смешивание языков".%pip
, который выполняетсяpip install
на локальном компьютере. Это не выполняетсяpip install
в удаленной рабочей области Azure Databricks. См. раздел "Управление библиотеками" с помощью команд %pip.%run
, который запускает другую записную книжку. См. , чтобы организовать записные книжки и модульно структурировать код в записных книжках.Примечание.
Чтобы включить
%run
, необходимо сначала установить библиотеку nbformat , выполнив следующую команду в терминале локального компьютера разработки:pip install nbformat
К дополнительным функциям, которые включены, относятся:
- Кадры данных Spark преобразуются в кадры данных pandas, которые отображаются в формате таблицы Jupyter.
Ограничения
Ограничения запуска ячеек в записных книжках в Visual Studio Code:
- При вызове записные книжки
%r
%scala
не поддерживаются и отображаются ошибки. См. раздел " Смешивание языков". - Магия записной книжки
%sql
не поддерживает некоторые команды DML, например Показать таблицы.