Поделиться через


Задача записной книжки для заданий

Используйте задачу записной книжки для развертывания записных книжек Databricks.

Настройка задачи записной книжки

Перед началом работы необходимо иметь записную книжку в расположении, доступном пользователю, настроив задание.

Примечание.

Пользовательский интерфейс заданий динамически отображает параметры на основе других настроенных параметров.

Чтобы начать процесс настройки Notebook задачи, выполните следующие действия.

  1. Перейдите на вкладку "Задачи " в пользовательском интерфейсе заданий.
  2. В раскрывающемся меню типа выберите .

Настройка источника

В раскрывающемся меню источника выберите расположение скрипта Python с помощью одного из следующих параметров.

Рабочая область

Используйте рабочую область для настройки записной книжки, хранящейся в рабочей области, выполнив следующие действия:

  1. Щелкните поле "Путь". Откроется диалоговое окно Выбор записной книжки.
  2. Перейдите к записной книжке, щелкните, чтобы выделить файл и нажмите кнопку "Подтвердить".

Примечание.

Этот параметр можно использовать для настройки задачи для записной книжки, хранящейся в папке Databricks Git. Databricks рекомендует использовать параметр поставщика Git и удаленный репозиторий Git для управления версиями ресурсов, запланированных с заданиями.

Поставщик Git

Используйте поставщик Git для настройки записной книжки в удаленном репозитории Git.

Параметры, отображаемые пользовательским интерфейсом, зависят от того, настроен ли поставщик Git в другом месте. Для всех задач в задании можно использовать только один удаленный репозиторий Git. См. статью "Использование Git" с заданиями.

Внимание

Записные книжки, созданные заданиями Azure Databricks, которые выполняются из удаленных репозиториев Git, являются временными и не могут полагаться на отслеживание запусков MLflow, экспериментов или моделей. При создании записной книжки из задания используйте эксперимент MLflow рабочей области (вместо эксперимента MLflow записной книжки) и вызовите mlflow.set_experiment("/path/to/experiment") записную книжку рабочей области перед выполнением любого кода отслеживания MLflow. Дополнительные сведения см. в статье "Предотвращение потери данных в экспериментах MLflow".

Поле "Путь" отображается после настройки ссылки на git.

Введите относительный путь для записной книжки, например etl/bronze/ingest.py.

Внимание

При вводе относительного пути не начинайтесь или /не начинайтесь./. Например, если абсолютный путь для записной книжки, к которой вы хотите получить доступ /etl/bronze/ingest.py, введите etl/bronze/ingest.py в поле Path .

Настройка вычислительных и зависимых библиотек

  1. Используйте Compute, чтобы выбрать или настроить кластер, который поддерживает выполнение логики в вашей записной книжке.
  2. Если вы используете вычислительную платформу Serverless, используйте поле среды и библиотек, чтобы выбрать, изменить или добавить новую среду. См. статью "Установка зависимостей записной книжки".
  3. Для всех остальных конфигураций вычислений нажмите кнопку +Добавить в зависимые библиотеки. Откроется диалог "Добавить зависимые библиотеки".
    • Вы можете выбрать существующую библиотеку или отправить новую библиотеку.
    • Вы можете использовать только библиотеки, хранящиеся в расположении, поддерживаемом конфигурациями вычислений. См . раздел поддержки библиотеки Python.
    • Каждый источник библиотеки имеет другой поток для выбора или отправки библиотеки. См . библиотеки.

Завершение настройки задания

  1. (Необязательно) Настройте параметры в виде пар "ключ-значение", к которым можно получить доступ в ноутбуке с помощью dbutils.widgets. См.: Настройте параметры задачи.
  2. Нажмите кнопку " Сохранить задачу".

Ограничения

Общий объем выходных данных ячейки записной книжки (объединенные выходные данные всех ячеек записной книжки) имеет ограничение в 20 МБ. Кроме того, отдельные выходные данные ячеек подвергаются ограничению размера 8 МБ. Если суммарный итоговый размер ячеек превышает 20 МБ или итоговый размер отдельной ячейки превышает 8 МБ, выполнение отменяется и помечается как завершенное с ошибкой.

Если вам нужна помощь по поиску ячеек вблизи или за пределами лимита, запустите записную книжку в универсальном кластере и используйте метод автосохранения записной книжки.