Отправка Spark (устаревшая версия)
Тип задачи Отправки Spark — это устаревший шаблон настройки JAR в качестве задач. Databricks рекомендует использовать задачу JAR . См . задачу JAR для заданий.
Требования
- задачи spark-submit можно вызывать только в новых кластерах;
- Необходимо передать JAR-файл в расположение или репозиторий Maven, совместимый с конфигурацией вычислений. Ознакомьтесь с поддержкой библиотеки Java и Scala.
- Доступ к JAR-файлам, хранящимся в томах, невозможно.
- spark-submit не поддерживает автоматическое масштабирование кластеров. Дополнительные сведения об автомасштабировании см. в разделе Автомасштабирование кластера;
- Служба Spark-submit не поддерживает ссылку databricks Utilities (dbutils). Чтобы использовать служебные программы Databricks выбирайте задачи JAR.
- Если вы используете кластер с поддержкой каталога Unity, spark-submit поддерживается только в том случае, если кластер использует режим доступа с одним пользователем. Режим общего доступа не поддерживается. См . режимы доступа.
- Структурированные задания потоковой передачи никогда не должны иметь максимальное число параллельных запусков, равное 1. Потоковая передача задач должна выполняться с помощью выражения cron
"* * * * * ?"
(каждую минуту). Так как задача потоковой передачи выполняется непрерывно, она всегда должна быть конечной задачей в задании.
Настройка задачи отправки Spark
Spark Submit
Добавьте задачу на вкладке "Задачи" в пользовательском интерфейсе заданий, выполнив следующие действия:
-
В раскрывающемся меню "Тип" выберите
Spark Submit
. - Используйте вычисления для настройки кластера, поддерживающего логику в задаче.
- Используйте текстовое поле "Параметры" , чтобы предоставить все аргументы и конфигурации, необходимые для выполнения задачи в виде массива строк JSON.
Первые три аргумента используются для идентификации основного класса для выполнения в JAR-файле по указанному пути, как показано в следующем примере:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Невозможно переопределить
master
параметры иdeploy-mode
executor-cores
параметры, настроенные Azure DatabricksИспользуйте
--jars
и--py-files
добавьте зависимые библиотеки Java, Scala и Python.Используется
--conf
для задания конфигураций Spark.Аргументы
--jars
,--py-files
,--files
поддерживают пути DBFS.По умолчанию задание отправки Spark использует всю доступную память, за исключением памяти, зарезервированной для служб Azure Databricks. Можно задать для
--driver-memory
и--executor-memory
меньшее значение, чтобы оставить некоторое место для использования вне кучи.
- Нажмите кнопку " Сохранить задачу".