Поделиться через


Задача скрипта Python для заданий

Используйте задачу скрипта Python для запуска файла Python.

Настройка задачи скрипта Python

Перед началом работы необходимо передать скрипт Python в расположение, доступное пользователю, настроив задание. Databricks рекомендует использовать файлы рабочей области для сценариев Python. См. раздел " Что такое файлы рабочей области?".

Примечание.

Пользовательский интерфейс заданий динамически отображает параметры на основе других настроенных параметров.

Databricks рекомендует хранить код или данные с помощью корня ИЛИ подключения DBFS. Вместо этого можно перенести скрипты Python в файлы рабочей области или тома или использовать URI для доступа к облачному хранилищу объектов.

Чтобы начать процесс настройки Python script задачи, выполните следующие действия.

  1. Перейдите на вкладку "Задачи " в пользовательском интерфейсе заданий.
  2. В раскрывающемся меню типа выберите Python script.

Настройка источника

В раскрывающемся меню источника выберите расположение скрипта Python с помощью одного из следующих параметров.

Рабочая область

Используйте рабочую область для настройки скрипта Python, хранящегося с помощью файлов рабочей области.

  1. Щелкните поле "Путь". Откроется диалоговое окно выбора файла Python.
  2. Перейдите к скрипту Python, щелкните, чтобы выделить файл и нажмите кнопку "Подтвердить".

Примечание.

Этот параметр можно использовать для настройки задачи на скрипте Python, хранящейся в папке Databricks Git. Databricks рекомендует использовать параметр поставщика Git и удаленный репозиторий Git для версий ресурсов, запланированных с заданиями.

DBFS/ADLS

Используйте DBFS/ADLS для настройки скрипта Python, хранящегося в томе, расположении облачного хранилища объектов или корневом каталоге DBFS.

Databricks рекомендует хранить скрипты Python в томах каталога Unity или облачном хранилище объектов.

В поле Path введите универсальный код ресурса (URI) в скрипт Python. Например, /Volumes/path/to/script.py или abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py.

Поставщик Git

Используйте поставщик Git для настройки скрипта Python, хранящегося в удаленном репозитории Git.

Параметры, отображаемые пользовательским интерфейсом, зависят от того, настроен ли поставщик Git в другом месте. Для всех задач в задании можно использовать только один удаленный репозиторий Git. См. статью "Использование Git" с заданиями.

Поле "Путь" отображается после настройки ссылки на git.

Введите относительный путь для скрипта Python, например etl/bronze/ingest.py.

Внимание

При вводе относительного пути не начинайтесь или /не начинайтесь./. Например, если абсолютный путь к коду Python, к которому требуется /etl/bronze/ingest.pyполучить доступ, введите etl/bronze/ingest.py в поле Path .

Настройка вычислительных и зависимых библиотек

  1. Используйте Compute, чтобы выбрать или настроить кластер, который поддерживает логику вашего скрипта.
  2. Если вы используете вычислительную технику Serverless, воспользуйтесь полем для среды и библиотек, чтобы выбрать, изменить или добавить новую среду. См. статью "Установка зависимостей записной книжки".
  3. Для всех остальных конфигураций вычислений нажмите кнопку +Добавить в зависимые библиотеки. Откроется диалог "Добавить зависимые библиотеки".
    • Вы можете выбрать существующую библиотеку или отправить новую библиотеку.
    • Вы можете использовать только библиотеки, хранящиеся в расположении, поддерживаемом конфигурациями вычислений. См . раздел поддержки библиотеки Python.
    • Каждый источник библиотеки имеет другой поток для выбора или отправки библиотеки. См . библиотеки.

Завершение настройки задания

  1. (Необязательно) Настройте параметры в виде списка строк, передаваемых в качестве аргументов CLI в скрипт Python. См. настройка параметров задачи.
  2. Нажмите кнопку " Сохранить задачу".