Spark Submit (hérité)
Le type de tâche Spark Submit est un modèle hérité pour la configuration des fichiers JAR en tant que tâches. Databricks recommande d’utiliser la tâche JAR. Consultez Tâche JAR pour les travaux.
Spécifications
- Vous pouvez exécuter des tâches spark-submit uniquement sur les nouveaux clusters.
- Vous devez charger votre fichier JAR dans un emplacement ou un référentiel Maven compatible avec votre configuration de capacité de calcul. Consultez Prise en charge des bibliothèques Java et Scala.
- Vous ne pouvez pas accéder aux fichiers JAR stockés dans des volumes.
- Spark-submit ne prend pas en charge la mise à l’échelle automatique du cluster. Pour en savoir plus sur la mise à l’échelle automatique, consultez Mise à l’échelle automatique du cluster.
- Spark-submit ne prend pas en charge la référence Databricks Utilities (dbutils). Pour utiliser Databricks Utilities, utilisez des tâches JAR à la place.
- Si vous utilisez un cluster Unity Catalog, spark-submit est pris en charge uniquement si le cluster utilise le mode d’accès mono-utilisateur. Le mode d’accès partagé n’est pas pris en charge. Voir Modes d’accès aux fichiers.
- Les travaux de streaming structuré ne doivent jamais avoir un nombre maximal d’exécutions simultanées défini sur une valeur supérieure à 1. Les travaux de streaming doivent être configurés pour s’exécuter à l’aide de l’expression cron
"* * * * * ?"
(toutes les minutes). Étant donné qu’une tâche de streaming s’exécute en continu, elle doit toujours être la dernière tâche d’un travail.
Configurer une tâche Spark Submit
Ajoutez une tâche Spark Submit
à partir de l’onglet Tâches de l’IU des projets en procédant comme suit :
- Dans le menu déroulant Type, sélectionnez
Spark Submit
. - Utilisez Capacité de calcul pour configurer un cluster qui prend en charge la logique dans votre tâche.
- Utilisez la zone de texte Paramètres pour fournir tous les arguments et configurations nécessaires à l’exécution de votre tâche en tant que tableau JSON de chaînes.
Les trois premiers arguments sont utilisés pour identifier la classe principale à exécuter dans un fichier JAR à un chemin d’accès spécifié, comme dans l’exemple suivant :
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Vous ne pouvez pas remplacer les paramètres
master
,deploy-mode
etexecutor-cores
configurés par Azure Databricks.Utilisez
--jars
et--py-files
pour ajouter des bibliothèques Java, Scala et Python dépendantes.Utilisez
--conf
pour définir des configurations Spark.Les arguments
--jars
,--py-files
,--files
prennent en charge les chemins d’accès DBFS.Par défaut, le travail d’envoi Spark utilise toute la mémoire disponible, sauf la mémoire réservée pour les services Azure Databricks. Vous pouvez définir
--driver-memory
et--executor-memory
à une valeur inférieure, pour laisser de la place à l’utilisation hors du tas.
- Cliquez sur Enregistrer la tâche.