Запустите задание Azure Databricks с использованием бессерверных вычислений для рабочих процессов.

Статья
02/14/2025

Бессерверные вычисления для рабочих процессов позволяют выполнять задание Azure Databricks без настройки и развертывания инфраструктуры. Благодаря бессерверным вычислениям вы можете сосредоточиться на реализации конвейеров обработки и анализа данных, а Azure Databricks эффективно управляет вычислительными ресурсами, включая оптимизацию и масштабирование вычислительных ресурсов для рабочих нагрузок. Автоматическое масштабирование и Photon автоматически включены для вычислительных ресурсов, исполняющих ваше задание.

Бессерверные вычисления для рабочих процессов автоматически и непрерывно оптимизируют инфраструктуру, например типы экземпляров, память и обработчики обработки, чтобы обеспечить оптимальную производительность на основе конкретных требований к обработке рабочих нагрузок.

Databricks автоматически обновляет версию Среды выполнения Databricks для поддержки улучшений и обновлений до платформы, обеспечивая стабильность заданий Azure Databricks. Сведения о текущей версии среды выполнения Databricks, используемой бессерверными вычислениями для рабочих процессов, см. в заметках о выпуске бессерверных вычислений.

Так как разрешение на создание кластера не требуется, все пользователи рабочей области могут использовать бессерверные вычисления для выполнения рабочих процессов.

В этой статье описывается использование пользовательского интерфейса заданий Azure Databricks для создания и запуска заданий, использующих бессерверные вычисления. Вы также можете автоматизировать создание и выполнение заданий, использующих бессерверные вычисления с ПОМОЩЬЮ API заданий, пакетов ресурсов Databricks и пакета SDK Databricks для Python.

Дополнительные сведения об использовании API Jobs для создания и запуска заданий, использующих бессерверные вычисления, см. в справочнике REST API.
Сведения об использовании пакетов ресурсов Databricks для создания и запуска заданий, использующих бессерверные вычисления, см. в статье "Разработка задания в Azure Databricks с помощью пакетов ресурсов Databricks".
Сведения об использовании пакета SDK Databricks для Python для создания и запуска заданий, использующих бессерверные вычисления, см. в пакете SDK Databricks для Python.

Требования

Рабочая область Azure Databricks должна включать каталог Unity.
Так как бессерверные вычисления для рабочих процессов используют стандартный режим доступа, рабочие нагрузки должны поддерживать этот режим доступа.
Рабочая область Databricks должна находиться в поддерживаемом регионе. См. Функции с ограниченной региональной доступностью.

Учетная запись Azure Databricks должна иметь бессерверные вычислительные ресурсы. См. раздел "Включить бессерверные вычисления".

Создание задания с помощью бессерверных вычислений

Примечание.

Поскольку бессерверные вычислительные ресурсы для рабочих процессов автоматически обеспечивают подготовку достаточного количества ресурсов для выполнения ваших рабочих нагрузок, вы можете столкнуться с увеличением времени запуска при выполнении задачи Azure Databricks, требующей большого объема памяти или включающей много задач.

Поддержка бессерверных вычислений обеспечивается для записных книжек, Python-скриптов, dbt и задач типа Python wheel. По умолчанию бессерверные вычисления выбираются в качестве типа вычислений при создании нового задания и добавлении одного из этих поддерживаемых типов задач.

Создание бессерверной задачи

Databricks рекомендует использовать бессерверные вычисления для всех задач задания. Можно также указать различные типы вычислений для задач в задании, которые могут потребоваться, если тип задачи не поддерживается бессерверными вычислениями для рабочих процессов.

См. Управление исходящими сетевыми подключениями для заданий: что такое контроль исходящего трафика в бессерверной среде?

Настройка существующего задания для использования бессерверных вычислений

При изменении задания можно переключить существующее задание на использование бессерверных вычислений для поддерживаемых типов задач. Чтобы переключиться на бессерверные вычисления, выполните указанные действия.

На боковой панели сведения о задании нажмите Обмен в разделе вычислительные ресурсы, затем нажмите Новый, введите или обновите любые параметры и нажмите Обновить.
Щелкните в раскрывающемся меню Compute и выберите Serverless.

Переключение задачи на бессерверные вычисления

Планирование записной книжки с помощью бессерверных вычислений

Помимо использования пользовательского интерфейса заданий для создания и планирования задания с помощью бессерверных вычислений, можно создать и запустить задание, использующее бессерверные вычисления непосредственно из записной книжки Databricks. См. статью "Создание запланированных заданий записной книжки и управление ими".

Выбор политики бюджета для бессерверного использования

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Бюджетные политики позволяют вашей организации применять пользовательские теги к бессерверным вычислениям для детализированного учета затрат.

Если в вашей рабочей области используются политики бюджета для учета бессерверного использования, вы можете выбрать политику бюджета для вашего задания, используя настройку Политика бюджета в пользовательском интерфейсе сведений о задании. Если вы назначены только одной политике бюджета, политика автоматически выбирается для новых заданий.

Примечание.

После назначении вам политики бюджета ваши существующие задания не будут автоматически помечены этой политикой. Для того чтобы применить политику к существующим заданиям, необходимо обновить их вручную.

Дополнительные сведения о политиках бюджета см. в разделе "Бессерверное использование атрибутов" с политиками бюджета.

настройка параметров конфигурации Spark

Чтобы автоматизировать настройку Spark на бессерверных вычислениях, Databricks позволяет задавать только определенные параметры конфигурации Spark. Список допустимых параметров см. в разделе Поддерживаемые параметры конфигурации Spark.

Параметры конфигурации Spark можно задать только на уровне сеанса. Для этого задайте их в записной книжке и добавьте записную книжку в задачу, включенную в то же задание, которое использует параметры. См. как получать и задавать свойства конфигурации Apache Spark в записной книжке.

Настройка сред и зависимостей

Сведения об установке библиотек и зависимостей с помощью бессерверных вычислений см. в статье "Установка зависимостей записной книжки".

Настройка увеличенной памяти для задач ноутбука

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Задачи записной книжки можно настроить для использования более высокого размера памяти. Для этого настройте параметр памяти в боковой панели среды записной книжки. См. настройка высокой памяти для бессерверных рабочих нагрузок.

Высокая память доступна только для типов задач записной книжки.

Настройка автоматической оптимизации бессерверных вычислений для запрета повторных попыток

Бессерверные вычисления для автоматический оптимизации рабочих процессов автоматически оптимизируют вычислительные ресурсы, используемые для выполнения заданий и повторных попыток неудачных задач. Автоматическая оптимизация включена по умолчанию, и Databricks рекомендует оставить ее включено, чтобы обеспечить успешное выполнение критически важных рабочих нагрузок по крайней мере один раз. Однако если у вас есть рабочие нагрузки, которые должны выполняться по крайней мере один раз, например задания, которые не идемпотентны, можно отключить автоматическую оптимизацию при добавлении или редактировании задачи:

Рядом с Повторные попытки нажмите Добавить (или , если политика повторных попыток уже существует).
В диалоговом окне политики повторных попыток снимите флажок Включить автоматическую оптимизацию без сервера (может включать дополнительные повторные попытки).
Нажмите кнопку Подтвердить.
Если вы добавляете задачу, нажмите кнопку "Создать задачу". Если вы редактировать задачу, нажмите кнопку "Сохранить".

Мониторинг затрат на задания, использующие бессерверные вычисления для рабочих процессов

Вы можете отслеживать затраты на задания, которые используют бессерверные вычисления для рабочих процессов, обращаясь к системной таблице оплачиваемого использования . Эта таблица обновляется с учётом атрибутов пользователей и рабочей нагрузки, связанных с вопросами бессерверных затрат. См. справочную таблицу по использованию системы выставления счетов.

Сведения о текущих ценах и любых рекламных акциях см. на странице цен рабочих процессов.

Просмотр деталей запросов для запусков заданий

Подробные сведения о времени выполнения можно просмотреть для операций Spark, таких как метрики и планы запросов.

Чтобы получить доступ к сведениям о запросах из пользовательского интерфейса заданий, выполните следующие действия.

Щелкните Рабочие процессы на боковой панели.
Щелкните имя задания, которое вы хотите просмотреть.
Щелкните конкретный запуск, который вы хотите просмотреть.
Щелкните «Таймлайн», чтобы просмотреть выполнение в виде временной шкалы, разделённой на отдельные задачи.
Щелкните стрелку рядом с названием задачи, чтобы отобразить запросы и их время выполнения.
Щелкните по заявлению, чтобы открыть панель сведений о запросе. Дополнительные сведения о запросах см. в разделе "Просмотр сведений ", доступных на этой панели.

Чтобы просмотреть журнал запросов для задачи, выполните следующие действия.

В разделе Вычисления на боковой панели Запуска задачи щелкните Журнал запросов.
Вы перенаправляетесь в журнал запросов, префильтрованный на основе идентификатора выполнения задачи, в который вы находились.

Сведения об использовании истории запросов см. в разделе доступ к журналу запросов для конвейеров DLT и в разделе история запросов.

Ограничения

Список ограничений бессерверных вычислений для рабочих процессов см. в ограничениях на бессерверные вычисления в заметках о выпуске бессерверных вычислений.

Поделиться через