Настройка и изменение заданий Databricks
В этой статье рассматриваются инструкции по созданию, настройке и редактированию заданий с помощью пользовательского интерфейса рабочей области Workflows . Azure Databricks имеет другие точки входа и средства для настройки, включая следующие:
- Дополнительные сведения об использовании интерфейса командной строки Databricks для создания и запуска заданий см. в статье "Что такое интерфейс командной строки Databricks?".
- Дополнительные сведения об использовании API заданий для создания и запуска заданий см. в справочнике по REST API.
- Сведения о том, как выполнять и планировать задания непосредственно в записной книжке Databricks, см. в статье "Создание запланированных заданий записной книжки и управление ими".
Совет
Чтобы просмотреть задание как YAML, щелкните меню kebab слева от запуска для задания, а затем нажмите кнопку "Переключиться на версию кода" (YAML).
Создание задания
В этом разделе описывается минимальная конфигурация, необходимая для создания нового задания для планирования задачи записной книжки с пользовательским интерфейсом рабочей области.
Задания содержат одну или несколько задач. Создав новое задание, настроив первую задачу для этого задания.
Примечание.
Каждый тип задачи имеет динамические параметры конфигурации в пользовательском интерфейсе рабочей области. См. статью "Настройка и изменение задач Databricks".
- Щелкните рабочие процессы на боковой панели и щелкните .
- Введите имя задачи.
- Выберите записную книжку для поля "Путь ".
- Нажмите Создать задачу.
Если рабочая область не включена для бессерверных вычислений для заданий, необходимо выбрать параметр вычислений. Databricks рекомендует всегда использовать вычисления заданий при настройке задач.
Новое задание отображается в списке заданий рабочей области с именем New Job <date> <time>
по умолчанию.
Выбор задания для редактирования в рабочей области
Чтобы изменить существующее задание с помощью пользовательского интерфейса рабочей области, сделайте следующее:
- Щелкните рабочие процессы на боковой панели.
- В столбце Имя нажмите на имя задания.
Используйте пользовательский интерфейс заданий для выполнения следующих действий:
- Изменение настроек задания
- Переименование, клонирование или удаление задания
- Добавление новых задач в существующее задание
- Изменение параметров задачи
Примечание.
Вы также можете просмотреть определения JSON для использования с REST API получения, создания и сброса конечных точек.
Изменение параметров задания
На боковой панели содержатся сведения о задании. Триггер задания, конфигурацию вычислений, уведомления, максимальное количество одновременных запусков, настройку пороговых значений длительности и добавление или изменение тегов. Кроме того, можно изменять разрешения задания, если включено управление доступом к заданиям.
Добавление параметров для всех задач задания
Параметры, настроенные на уровне задания, передаются задачам задания, которые принимают параметры ключа-значение, включая файлы колес Python, настроенные для принятия аргументов ключевых слов. См . статью "Параметризация заданий".
Добавление тегов в задание
Чтобы добавить метки или атрибуты key-value в задание, можно добавить теги при редактировании задания. Теги можно использовать для фильтрации заданий в списке заданий. Например, можно использовать department
тег для фильтрации всех заданий, принадлежащих определенному отделу.
Примечание.
Так как теги заданий не предназначены для хранения конфиденциальных данных, таких как личные сведения или пароли, Databricks рекомендует использовать теги только для значений, не являющихся конфиденциальными.
Теги также распространяются на кластеры заданий, созданные при запуске задания, что позволяет использовать теги с существующим механизмом мониторинга кластера.
Нажмите кнопку +Тег на боковой панели сведений о задании, чтобы добавить или изменить теги. Тег можно добавить в виде пары "метка" или "ключ-значение". Чтобы добавить метку, введите метку в поле Ключ, а поле Значение оставьте пустым.
Добавление политики бюджета в задание
Если в рабочей области используются политики бюджета для атрибуции бессерверного использования, можно выбрать политику бюджета заданий с помощью параметра Политика бюджета в сведения о задании боковой панели. См. , как атрибутировать бессерверное использование с помощью бюджетных политик.
Переименование, клонирование или удаление задания
Чтобы переименовать задание, перейдите в пользовательский интерфейс заданий и щелкните имя задания.
Чтобы быстро создать новое задание, можно клонировать уже существующее. Клонирование задания создает идентичную копию задания, за исключением идентификатора задания. Чтобы клонировать задание, сделайте следующее:
- Перейдите к пользовательскому интерфейсу заданий для задания.
- Нажмите рядом с кнопкой "Запустить сейчас ".
- Выберите задание клонирования в раскрывающемся меню.
- Введите имя клонированного задания.
- Щелкните Клонировать.
Удаление задания
Чтобы удалить задание, перейдите на страницу задания, щелкните рядом с именем задания и выберите " Удалить задание " в раскрывающемся меню.
Использование Git с заданиями
Если задание содержит все задачи, которые поддерживают использование удаленного поставщика Git, пользовательский интерфейс заданий содержит поле Git и параметр добавления или изменения параметров Git.
Вы можете настроить следующие типы задач для использования удаленного репозитория Git:
- Записные книжки
- Сценарии Python
- SQL-файлы
- dbt
Все задачи в задании должны ссылаться на одну фиксацию в удаленный репозиторий. Для задания, использующего удаленный репозиторий, необходимо указать только одно из следующих действий:
-
ветвь: имя ветви, например
main
. -
tag: имя тега, например
release-1.0.0
. -
commit: хэш конкретной фиксации, например
e0056d01
.
При запуске задания Databricks принимает фиксацию моментального снимка удаленный репозиторий, чтобы убедиться, что все задание выполняется в той же версии кода.
При просмотре журнала выполнения задачи, которая выполняет код, хранящийся в удаленном репозитории Git, панель сведений о выполнении задач содержит сведения о Git, включая фиксацию SHA, связанную с выполнением. См. Просмотр журнала выполнения задач.
Примечание.
Задачи, настроенные для использования удаленного репозитория Git, не могут записываться в файлы рабочей области. Эти задачи должны записывать временные данные в эфемерное хранилище, подключенное к узлу драйвера вычислительной системы, настроенной для выполнения задачи, а постоянные данные — в том или таблицу.
Databricks рекомендует ссылаться на пути рабочих областей в папках Git только для быстрой итерации и тестирования во время разработки. При перемещении заданий в среду тестирования и среду эксплуатации Databricks рекомендует настроить эти задания для ссылки на удалённый репозиторий Git. Дополнительные сведения об использовании удаленного репозитория Git с заданием Databricks см. в следующем разделе.
Настройка поставщика Git
Пользовательский интерфейс заданий содержит диалоговое окно для настройки удаленного репозитория Git. Это диалоговое окно доступно на панели сведений о задании под заголовком Git или любой задачей, настроенной для использования поставщика Git.
Параметры, отображаемые для доступа к диалогу, зависят от типа задачи и того, настроена ли ссылка на Git для задания. Кнопки для запуска диалогового окна включают добавление параметров Git, правку или добавление ссылки на git.
В диалоговом окне сведений Git (только что помеченный Git при доступе к панели сведений о задании) введите следующие сведения:
- URL-адрес репозитория Git.
- Выберите поставщика Git в раскрывающемся списке.
- В поле ссылки Git введите идентификатор ветви, тега или фиксации, соответствующей версии исходного кода, которую требуется запустить.
- Выберите ветвь, тег или фиксацию из раскрывающегося списка.
Примечание.
Диалоговое окно может предложить вам следующее: учетные данные Git для этой учетной записи отсутствуют. Добавьте учетные данные. Прежде чем использовать его в качестве ссылки, необходимо настроить удаленный репозиторий Git. См. статью "Настройка папок Git Для Databricks(Repos)".
Настройка пороговых значений для длительности выполнения заданий или метрик отставания потоковой обработки
Важный
Наблюдаемость потоковой передачи для заданий Databricks находится в общедоступной предварительной версии.
Можно настроить необязательные пороговые значения для длительности выполнения задания или метрик отставания потока. Чтобы настроить пороговые значения длительности или потоковой метрики, щелкните Пороговые значения длительности и потоковой очереди в панели сведений о задании .
Чтобы настроить пороговые значения длительности задания, включая ожидаемое и максимальное время завершения задания, выберите длительность выполнения в раскрывающемся меню Метрики. Введите длительность в поле "Предупреждение" , чтобы настроить ожидаемое время завершения задания. Если задание превышает это пороговое значение, активируется событие. Это событие можно использовать для уведомления о медленном выполнении задания. См. раздел Настройка уведомлений для медленных заданий. Чтобы настроить максимальное время завершения задания, введите максимальную длительность в поле "Время ожидания ". Если задание не завершается за это время, Azure Databricks устанавливает для его состояния значение "Время ожидания истекло".
Чтобы настроить пороговое значение для метрики очереди данных потоковой передачи, выберите метрику в раскрывающемся меню Метрика и введите значение порога. Дополнительные сведения о конкретных метриках, поддерживаемых источником потоковой передачи, см. в разделе Просмотр метрик для задач потоковой передачи.
Если событие активируется из-за превышения порогового значения, можно использовать событие для отправки уведомления. См. раздел Настройка уведомлений для медленных заданий.
При необходимости можно указать пороговые значения длительности для задач. Смотрите настройку порогов для продолжительности выполнения задач или метрик потока невыполненных задач.