Настройка и изменение заданий Databricks
Вы можете создать и запустить задание с помощью пользовательского интерфейса заданий или средств разработчика, таких как CLI Databricks или REST API. С помощью пользовательского интерфейса или API можно восстановить и повторно запустить неисправное или отмененное задание. В этой статье показано, как создавать, настраивать и изменять задания с помощью интерфейса рабочего пространства Workflows. Дополнительные сведения о других средствах см. в следующих статьях:
- Дополнительные сведения об использовании интерфейса командной строки Databricks для создания и запуска заданий см. в статье "Что такое интерфейс командной строки Databricks?".
- Дополнительные сведения об использовании API заданий для создания и запуска заданий см. в справочнике по REST API.
- Если вы предпочитаете подход «инфраструктура как код» (IaC) для настройки заданий, можно использовать пакеты ресурсов Databricks (DABs). Дополнительные сведения об использовании DAB для настройки и оркестрации заданий см. в статье Databricks Asset Bundles.
- Сведения о том, как выполнять и планировать задания непосредственно в записной книжке Databricks, см. в статье "Создание запланированных заданий записной книжки и управление ими".
Совет
Чтобы просмотреть задание как YAML, щелкните меню kebab слева от запуска для задания, а затем нажмите кнопку "Переключиться на версию кода" (YAML).
Какая минимальная конфигурация необходима для задания?
Для всех заданий в Azure Databricks требуется следующее:
- Задача, содержащая логику для выполнения, например ноутбук Databricks. См. статью Настройка и изменение задач Databricks
- Вычислительный ресурс для выполнения логики. Вычислительный ресурс может быть бессерверным, классическим вычислениям заданий или вычислениями всех целей. См. раздел "Настройка вычислений для заданий".
- Указанное расписание для выполнения задания. При необходимости можно опустить расписание и запустить задание вручную.
- Уникальное имя.
Создание задания
В этом разделе описаны шаги по созданию нового задания с использованием задачи в записной книжке и запланировать его с помощью пользовательского интерфейса рабочей области.
Задания содержат одну или несколько задач. Создав новое задание, настроив первую задачу для этого задания.
Примечание.
Каждый тип задачи имеет динамические параметры конфигурации в пользовательском интерфейсе рабочей области. См. статью "Настройка и изменение задач Databricks".
- Щелкните
рабочие процессы на боковой панели и щелкните .
- Введите имя задачи.
- Выберите записную книжку для поля пути.
- Нажмите Создать задачу.
Если для вашей рабочей области не настроены бессерверные вычисления для заданий, необходимо выбрать параметр вычислительных ресурсов. Databricks рекомендует всегда использовать вычисления заданий при настройке задач.
Новое задание отображается в списке заданий рабочей области с именем по умолчанию New Job <date> <time>
.
Вы можете продолжать добавлять дополнительные задачи в одном задании, если это необходимо для рабочего процесса.
Планирование задания
Вы можете решить, когда задание выполняется. По умолчанию он будет выполняться только при запуске вручную, но вы также можете настроить его для автоматического запуска. Вы можете создать триггер для запуска задания по расписанию или на основе события.
Управление потоком задач в задании
При настройке нескольких задач в заданиях можно использовать специализированные задачи для управления выполнением задач. См. управление потоком задач в задании Databricks.
Выберите задачу для редактирования в рабочей области
Чтобы изменить существующее задание с помощью пользовательского интерфейса рабочей области, сделайте следующее:
- Щелкните
рабочие процессы на боковой панели.
- В столбце Name щелкните название задания.
Используйте пользовательский интерфейс заданий для выполнения следующих действий:
- Изменение настроек задания
- Переименование, клонирование или удаление задания
- Добавление новых задач в существующее задание
- Изменение параметров задачи
Примечание.
Вы также можете просмотреть определения JSON для использования с REST API получения, созданияи сброса точек доступа.
Изменение параметров задания
На боковой панели содержатся сведения о задании. Триггер задания, конфигурацию вычислений, уведомления, максимальное количество одновременных запусков, настройку пороговых значений длительности и добавление или изменение тегов. Кроме того, можно изменять разрешения задания, если включено управление доступом к заданиям.
Добавление параметров ко всем задачам
Параметры, настроенные на уровне задания, передаются задачам, которые работают с параметрами в формате ключ-значение, включая wheel-файлы Python, настроенные для обработки аргументов ключевых слов. См . статью "Параметризация заданий".
Добавление тегов в задание
Чтобы добавить метки или атрибуты key-value в задание, можно добавить теги при редактировании задания. Теги можно использовать для фильтрации заданий в списке заданийdepartment
тег для фильтрации всех заданий, принадлежащих определенному отделу.
Примечание.
Так как теги заданий не предназначены для хранения конфиденциальных данных, таких как персональные данные или пароли, Databricks рекомендует использовать теги только для нечувствительных значений.
Теги также распространяются на кластеры заданий, созданные при запуске задания, что позволяет использовать теги с существующим механизмом мониторинга кластера.
Нажмите кнопку +Тег на боковой панели сведений о задании, чтобы добавить или изменить теги. Тег можно добавить в виде пары "метка" или "ключ-значение". Чтобы добавить метку, введите метку в поле Ключ, а поле Значение оставьте пустым.
Добавление политики бюджета в задание
Если ваша рабочая область использует политики бюджета для распределения затрат на бессерверное использование, вы можете выбрать политику бюджета для своих заданий с помощью параметра Политики бюджета в боковой панели Сведения о задании. См. , как атрибутировать бессерверное использование с помощью бюджетных политик.
Переименование, клонирование или удаление задания
Чтобы переименовать задание, перейдите в пользовательский интерфейс заданий и щелкните имя задания.
Чтобы быстро создать новое задание, можно клонировать уже существующее. Клонирование задания создает идентичную копию задания, за исключением идентификатора задания. Чтобы клонировать задание, сделайте следующее:
- Перейдите к пользовательскому интерфейсу заданий для задания.
- Нажмите рядом
с кнопкой "Запустить сейчас ".
- Выберите задание клонирования в раскрывающемся меню.
- Введите имя клонированного задания.
- Щелкните Клонировать.
Удаление задания
Чтобы удалить задание, перейдите на страницу задания, кликните рядом с именем задания и выберите Удалить задание из выпадающего списка.
Использование Git с заданиями
Если задание содержит все задачи, которые поддерживают использование удаленного поставщика Git, пользовательский интерфейс заданий содержит поле Git и параметр добавления или изменения параметров Git.
Вы можете настроить следующие типы задач для использования удаленного репозитория Git:
- Записные книжки
- Сценарии Python
- SQL-файлы
- dbt
Все задачи в задании должны ссылаться на одну фиксацию в удаленный репозиторий. Для задания, использующего удаленный репозиторий, необходимо указать только одно из следующих действий:
-
ветвь: имя ветви, например
main
. -
tag: имя тега, например
release-1.0.0
. -
commit: хэш конкретной фиксации, например
e0056d01
.
При запуске задания Databricks принимает фиксацию моментального снимка удаленный репозиторий, чтобы убедиться, что все задание выполняется в той же версии кода.
При просмотре журнала выполнения задачи, которая выполняет код, хранящийся в удаленном репозитории Git, панель сведений о выполнении задач содержит сведения о Git, включая фиксацию SHA, связанную с выполнением. См. Просмотр журнала выполнения задач.
Примечание.
Задачи, настроенные для использования удаленного репозитория Git, не могут записываться в файлы рабочей области. Эти задачи должны записывать временные данные в эфемерное хранилище, подключенное к узлу драйвера вычисления, настроенного для выполнения задачи и постоянных данных в томе или таблице.
Databricks рекомендует ссылаться на пути рабочих областей в папках Git только для быстрой итерации и тестирования во время разработки. При перемещении заданий в среду тестирования и среду эксплуатации Databricks рекомендует настроить эти задания для ссылки на удалённый репозиторий Git. Дополнительные сведения об использовании удаленного репозитория Git с заданием Databricks см. в следующем разделе.
Настройка поставщика Git
Пользовательский интерфейс заданий содержит диалоговое окно для настройки удаленного репозитория Git. Это диалоговое окно доступно на панели сведений о задании под заголовком Git или любой задачей, настроенной для использования поставщика Git.
Параметры, отображаемые для доступа к диалогу, зависят от типа задачи и того, настроена ли ссылка на Git для задания. Кнопки для запуска диалогового окна включают добавление параметров Git, правку или добавление ссылки на git.
В диалоговом окне сведений Git (только что помеченный Git при доступе к панели сведений о задании) введите следующие сведения:
- URL-адрес репозитория Git.
- Выберите поставщика Git в раскрывающемся списке.
- В поле ссылки
Git введите идентификатор ветви, тега или фиксации, соответствующей версии исходного кода, которую требуется запустить. - Выберите ветви, тегили фиксации в раскрывающемся списке.
Примечание.
Диалоговое окно может выдать следующее сообщение: учетные данные Git для этой учетной записи отсутствуют. Добавьте учетные данные. Прежде чем использовать его в качестве ссылки, необходимо настроить удаленный репозиторий Git. См. Настройка папок Git Databricks («Репозитории»).
Настройка пороговых значений для длительности выполнения заданий или метрик отставания потоковой обработки
Важный
Наблюдаемость потоковой передачи для заданий Databricks находится в общедоступной предварительной версии.
Можно настроить необязательные пороговые значения для длительности выполнения задания или метрик отставания потока. Чтобы настроить пороговые значения длительности или потоковой метрики, щелкните Пороговые значения длительности и потоковой очереди в панели сведений о задании .
Чтобы настроить пороговые значения длительности задания, включая ожидаемое и максимальное время завершения, выберите Длительность выполнения в раскрывающемся меню Метрика. Введите длительность в поле "Предупреждение" , чтобы настроить ожидаемое время завершения задания. Если задание превышает это пороговое значение, активируется событие. Это событие можно использовать для уведомления о медленном выполнении задания. См. раздел Настройка уведомлений для медленных заданий. Чтобы настроить максимальное время завершения задания, введите максимальную длительность в поле "Время ожидания ". Если задание не завершается за это время, Azure Databricks устанавливает для его состояния значение "Время ожидания истекло".
Чтобы задать пороговое значение для метрики потока с отставанием, выберите метрику в раскрывающемся списке Метрика и введите пороговое значение. Дополнительные сведения о конкретных метриках, поддерживаемых источником потоковой передачи, см. в разделе Просмотр метрик для задач потоковой передачи.
Если событие активируется из-за превышения порогового значения, можно использовать событие для отправки уведомления. См. раздел Настройка уведомлений для медленных заданий.
При необходимости можно указать пороговые значения длительности для задач. Смотрите настройку порогов для продолжительности выполнения задач или метрик потока невыполненных задач.