Поделиться через


Отправка Spark (устаревшая версия)

Тип задачи Отправки Spark — это устаревший шаблон настройки JAR в качестве задач. Databricks рекомендует использовать задачу JAR . См . задачу JAR для заданий.

Требования

  • задачи spark-submit можно вызывать только в новых кластерах;
  • Необходимо передать JAR-файл в расположение или репозиторий Maven, совместимый с конфигурацией вычислений. Ознакомьтесь с поддержкой библиотеки Java и Scala.
  • Доступ к JAR-файлам, хранящимся в томах, невозможно.
  • spark-submit не поддерживает автоматическое масштабирование кластеров. Дополнительные сведения об автомасштабировании см. в разделе Автомасштабирование кластера;
  • Служба Spark-submit не поддерживает ссылку databricks Utilities (dbutils). Чтобы использовать служебные программы Databricks выбирайте задачи JAR.
  • Если вы используете кластер с поддержкой каталога Unity, spark-submit поддерживается только в том случае, если кластер использует режим доступа с одним пользователем. Режим общего доступа не поддерживается. См . режимы доступа.
  • Структурированные задания потоковой передачи никогда не должны иметь максимальное число параллельных запусков, равное 1. Потоковая передача задач должна выполняться с помощью выражения cron "* * * * * ?" (каждую минуту). Так как задача потоковой передачи выполняется непрерывно, она всегда должна быть конечной задачей в задании.

Настройка задачи отправки Spark

Spark Submit Добавьте задачу на вкладке "Задачи" в пользовательском интерфейсе заданий, выполнив следующие действия:

  1. В раскрывающемся меню "Тип" выберите Spark Submit.
  2. Используйте вычисления для настройки кластера, поддерживающего логику в задаче.
  3. Используйте текстовое поле "Параметры" , чтобы предоставить все аргументы и конфигурации, необходимые для выполнения задачи в виде массива строк JSON.
    • Первые три аргумента используются для идентификации основного класса для выполнения в JAR-файле по указанному пути, как показано в следующем примере:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Невозможно переопределить masterпараметры и deploy-modeexecutor-cores параметры, настроенные Azure Databricks

    • Используйте --jars и --py-files добавьте зависимые библиотеки Java, Scala и Python.

    • Используется --conf для задания конфигураций Spark.

    • Аргументы --jars, --py-files, --files поддерживают пути DBFS.

    • По умолчанию задание отправки Spark использует всю доступную память, за исключением памяти, зарезервированной для служб Azure Databricks. Можно задать для --driver-memory и --executor-memory меньшее значение, чтобы оставить некоторое место для использования вне кучи.

  4. Нажмите кнопку " Сохранить задачу".