Envío de Spark (heredado)
El tipo de tarea Envío de Spark es un patrón heredado para configurar JAR como tareas. Databricks recomienda usar la tarea JAR. Consulte Tarea JAR para trabajos.
Requisitos
- Solo se pueden ejecutar las tareas spark-submit en clústeres nuevos.
- Debe cargar el archivo JAR en una ubicación o repositorio de Maven compatible con la configuración de proceso. Consulte Compatibilidad con bibliotecas de Java y Scala.
- No se puede acceder a los archivos JAR almacenados en volúmenes.
- Spark-submit no admite el escalado automático del clúster. Para más información sobre el escalado automático, consulte Escalado automático de clústeres.
- Spark-submit no admite referencia de utilidades de Databricks (dbutils). Para usar utilidades de Databricks, use tareas JAR en su lugar.
- Si usa un clúster habilitado para el Unity Catalog, solo se admite spark-submit si el clúster usa el modo de acceso de usuario único. No se admite el modo de acceso compartido. Consulte Modos de acceso.
- No se debe establecer nunca el número máximo de ejecuciones simultáneas de los trabajos de flujo estructurado en mayor que 1. Los trabajos de streaming deben establecerse para ejecutarse mediante la expresión cron
"* * * * * ?"
(cada minuto). Dado que una tarea de streaming se ejecuta continuamente, siempre debe ser la tarea final en un trabajo.
Configuración de una tarea de envío de Spark
Agregue una tarea Spark Submit
desde la pestaña Tareas de la interfaz de usuario trabajos haciendo lo siguiente:
- En el menú desplegable Tipo, seleccione
Spark Submit
. - Use Compute para configurar un clúster que admita la lógica en su tarea.
- Use el cuadro de texto Parámetros para proporcionar todos los argumentos y configuraciones necesarios para ejecutar la tarea como una matriz JSON de cadenas.
Los tres primeros argumentos se usan para identificar la clase principal que se va a ejecutar en un archivo JAR en una ruta de acceso especificada, como en el ejemplo siguiente:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
No se pueden invalidar las opciones
master
,deploy-mode
yexecutor-cores
configuradas por Azure Databricks.Use
--jars
y--py-files
para agregar bibliotecas de Java, Scala y Python dependientes.Use
--conf
para establecer configuraciones de Spark.Los argumentos
--jars
,--py-files
y--files
admiten rutas de acceso de DBFS.De forma predeterminada, el trabajo de envío de Spark usa toda la memoria disponible (excepto la memoria reservada para los servicios de Azure Databricks). Puede establecer
--driver-memory
y--executor-memory
con un valor más bajo para dejar espacio para el uso fuera del montón.
- Haga clic en Guardar tarea.