Dela via


Spark Submit (äldre)

Aktivitetstypen Spark Submit är ett äldre mönster för att konfigurera JAR:er som uppgifter. Databricks rekommenderar att du använder JAR-aktiviteten . Se JAR-uppgift för jobb.

Krav

  • Du kan endast köra spark-submit-uppgifter i nya kluster.
  • Du måste ladda upp JAR-filen till en plats eller en Maven-lagringsplats som är kompatibel med din beräkningskonfiguration. Se Stöd för Java- och Scala-bibliotek.
  • Du kan inte komma åt JAR-filer som lagras i volumes.
  • Spark-submit stöder inte automatisk skalning av kluster. Mer information om automatisk skalning finns i Autoskalning av kluster.
  • Spark-submit stöder inte databricks Utilities-referens (dbutils). Om du vill använda Databricks Utilities använder du JAR-uppgifter i stället.
  • Om du använder ett Unity-Catalog-aktiverat kluster stöds spark-submit endast om klustret använder åtkomstläget för en användare. Läget för delad åtkomst stöds inte. Se Åtkomstlägen.
  • Strukturerade direktuppspelningsjobb bör aldrig ha maximala samtidiga körningar set som är större än 1. Direktuppspelningsjobb ska set köras med cron-uttrycket "* * * * * ?" (varje minut). Eftersom en direktuppspelningsaktivitet körs kontinuerligt bör den alltid vara den sista uppgiften i ett jobb.

Konfigurera en Spark-skicka-uppgift

Lägg till en Spark Submit aktivitet från fliken Uppgifter i användargränssnittet för jobb genom att göra följande:

  1. I listrutan för nedrullningsbara menyn Typ selectSpark Submit.
  2. Använd Compute för att konfigurera ett kluster som stöder logiken i din uppgift.
  3. Använd textrutan Parameters för att ange alla argument och konfigurationer som krävs för att köra uppgiften som en JSON-matris med strängar.
    • De första tre argumenten används för att identifiera huvudklassen som ska köras i en JAR på en angiven sökväg, som i följande exempel:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Du kan inte åsidosätta masterinställningarna , deploy-modeoch som executor-cores konfigurerats av Azure Databricks

    • Använd --jars och --py-files för att lägga till beroende Java-, Scala- och Python-bibliotek.

    • Använd --conf till set Spark-konfigurationer.

    • Argumenten --jars, --py-files, --files stöder DBFS-sökvägar.

    • Som standard använder Spark-sändningsjobbet allt tillgängligt minne, exklusive minne som är reserverat för Azure Databricks-tjänster. Du kan set,--driver-memoryoch --executor-memory till ett mindre värde för att lämna utrymme för användning utanför heap-minnet.

  4. Klicka på Spara uppgift.