Spark Submit (äldre)
Aktivitetstypen Spark Submit är ett äldre mönster för att konfigurera JAR:er som uppgifter. Databricks rekommenderar att du använder JAR-aktiviteten . Se JAR-uppgift för jobb.
Krav
- Du kan endast köra spark-submit-uppgifter i nya kluster.
- Du måste ladda upp JAR-filen till en plats eller en Maven-lagringsplats som är kompatibel med din beräkningskonfiguration. Se Stöd för Java- och Scala-bibliotek.
- Du kan inte komma åt JAR-filer som lagras i volumes.
- Spark-submit stöder inte automatisk skalning av kluster. Mer information om automatisk skalning finns i Autoskalning av kluster.
- Spark-submit stöder inte databricks Utilities-referens (dbutils). Om du vill använda Databricks Utilities använder du JAR-uppgifter i stället.
- Om du använder ett Unity-Catalog-aktiverat kluster stöds spark-submit endast om klustret använder åtkomstläget för en användare. Läget för delad åtkomst stöds inte. Se Åtkomstlägen.
- Strukturerade direktuppspelningsjobb bör aldrig ha maximala samtidiga körningar set som är större än 1. Direktuppspelningsjobb ska set köras med cron-uttrycket
"* * * * * ?"
(varje minut). Eftersom en direktuppspelningsaktivitet körs kontinuerligt bör den alltid vara den sista uppgiften i ett jobb.
Konfigurera en Spark-skicka-uppgift
Lägg till en Spark Submit
aktivitet från fliken Uppgifter i användargränssnittet för jobb genom att göra följande:
- I listrutan för nedrullningsbara menyn Typ select
Spark Submit
. - Använd Compute för att konfigurera ett kluster som stöder logiken i din uppgift.
- Använd textrutan Parameters för att ange alla argument och konfigurationer som krävs för att köra uppgiften som en JSON-matris med strängar.
De första tre argumenten används för att identifiera huvudklassen som ska köras i en JAR på en angiven sökväg, som i följande exempel:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Du kan inte åsidosätta
master
inställningarna ,deploy-mode
och somexecutor-cores
konfigurerats av Azure DatabricksAnvänd
--jars
och--py-files
för att lägga till beroende Java-, Scala- och Python-bibliotek.Använd
--conf
till set Spark-konfigurationer.Argumenten
--jars
,--py-files
,--files
stöder DBFS-sökvägar.Som standard använder Spark-sändningsjobbet allt tillgängligt minne, exklusive minne som är reserverat för Azure Databricks-tjänster. Du kan set,
--driver-memory
och--executor-memory
till ett mindre värde för att lämna utrymme för användning utanför heap-minnet.
- Klicka på Spara uppgift.