Spark Submit (verouderd)
Het taaktype Spark Submit is een verouderd patroon voor het configureren van JAR's als taken. Databricks raadt aan om de JAR-taak te gebruiken. Zie de JAR-taak voor taken.
Vereisten
- U kunt spark-submit-taken alleen uitvoeren op nieuwe clusters.
- U moet uw JAR-bestand uploaden naar een locatie of Maven-opslagplaats die compatibel is met uw rekenconfiguratie. Zie ondersteuning voor Java- en Scala-bibliotheken.
- U hebt geen toegang tot JAR-bestanden die zijn opgeslagen in volumes.
- Spark-submit biedt geen ondersteuning voor automatische schaalaanpassing van clusters. Zie Automatische schaalaanpassing van clusters voor meer informatie over automatisch schalen.
- Spark-submit biedt geen ondersteuning voor Databricks Utilities-verwijzing (dbutils). Als u Databricks Utilities wilt gebruiken, gebruikt u in plaats daarvan JAR-taken.
- Als u een Unity Catalog-cluster gebruikt, wordt spark-submit alleen ondersteund als het cluster gebruikmaakt van de toegangsmodus voor één gebruiker. De modus voor gedeelde toegang wordt niet ondersteund. Zie Access-modi.
- Voor gestructureerde streamingtaken mag nooit een maximum aantal gelijktijdige uitvoeringen zijn ingesteld op groter dan 1. Streamingtaken moeten worden ingesteld om te worden uitgevoerd met behulp van de cron-expressie
"* * * * * ?"
(elke minuut). Omdat een streamingtaak continu wordt uitgevoerd, moet deze altijd de laatste taak in een taak zijn.
Een Spark Submit-taak configureren
Voeg als volgt een Spark Submit
taak toe vanaf het tabblad Taken in de gebruikersinterface taken:
- Selecteer in de vervolgkeuzelijst
Spark Submit
. - Gebruik Compute om een cluster te configureren dat ondersteuning biedt voor de logica in uw taak.
- Gebruik het tekstvak Parameters om alle argumenten en configuraties op te geven die nodig zijn om uw taak uit te voeren als een JSON-matrix met tekenreeksen.
De eerste drie argumenten worden gebruikt om de hoofdklasse te identificeren die moet worden uitgevoerd in een JAR op een opgegeven pad, zoals in het volgende voorbeeld:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
U kunt de
master
instellingendeploy-mode
die zijn geconfigureerd door Azure Databricks, nietexecutor-cores
overschrijvenGebruik
--jars
en--py-files
voeg afhankelijke Java-, Scala- en Python-bibliotheken toe.Gebruik
--conf
om Spark-configuraties in te stellen.De
--jars
argumenten--py-files
--files
ondersteunen DBFS-paden.De Spark-verzendtaak maakt standaard gebruik van alle beschikbare geheugen, met uitzondering van geheugen dat is gereserveerd voor Azure Databricks-services. U kunt
--driver-memory
en--executor-memory
op een kleinere waarde instellen om extra ruimte vrij te maken voor gebruik buiten de heap.
- Klik op Taak opslaan.