Отправка Spark (устаревшая версия)

Статья
10/05/2024

Тип задачи Отправки Spark — это устаревший шаблон настройки JAR в качестве задач. Databricks рекомендует использовать задачу JAR . См . задачу JAR для заданий.

Требования

задачи spark-submit можно вызывать только в новых кластерах;
Необходимо передать JAR-файл в расположение или репозиторий Maven, совместимый с конфигурацией вычислений. Ознакомьтесь с поддержкой библиотеки Java и Scala.
Доступ к JAR-файлам, хранящимся в томах, невозможно.
spark-submit не поддерживает автоматическое масштабирование кластеров. Дополнительные сведения об автомасштабировании см. в разделе Автомасштабирование кластера;
Служба Spark-submit не поддерживает ссылку databricks Utilities (dbutils). Чтобы использовать служебные программы Databricks выбирайте задачи JAR.
Если вы используете кластер с поддержкой каталога Unity, spark-submit поддерживается только в том случае, если кластер использует режим доступа с одним пользователем. Режим общего доступа не поддерживается. См . режимы доступа.
Структурированные задания потоковой передачи никогда не должны иметь максимальное число параллельных запусков, равное 1. Потоковая передача задач должна выполняться с помощью выражения cron "* * * * * ?" (каждую минуту). Так как задача потоковой передачи выполняется непрерывно, она всегда должна быть конечной задачей в задании.

Настройка задачи отправки Spark

Spark Submit Добавьте задачу на вкладке "Задачи" в пользовательском интерфейсе заданий, выполнив следующие действия:

В раскрывающемся меню "Тип" выберите Spark Submit.
Используйте вычисления для настройки кластера, поддерживающего логику в задаче.
Используйте текстовое поле "Параметры" , чтобы предоставить все аргументы и конфигурации, необходимые для выполнения задачи в виде массива строк JSON.
- Первые три аргумента используются для идентификации основного класса для выполнения в JAR-файле по указанному пути, как показано в следующем примере:
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Невозможно переопределить masterпараметры и deploy-modeexecutor-cores параметры, настроенные Azure Databricks
- Используйте --jars и --py-files добавьте зависимые библиотеки Java, Scala и Python.
- Используется --conf для задания конфигураций Spark.
- Аргументы --jars, --py-files, --files поддерживают пути DBFS.
- По умолчанию задание отправки Spark использует всю доступную память, за исключением памяти, зарезервированной для служб Azure Databricks. Можно задать для --driver-memory и --executor-memory меньшее значение, чтобы оставить некоторое место для использования вне кучи.
Нажмите кнопку " Сохранить задачу".

Поделиться через

Отправка Spark (устаревшая версия)

Требования

Настройка задачи отправки Spark

Обратная связь

Дополнительные ресурсы