Delen via


Spark Submit (verouderd)

Het taaktype Spark Submit is een verouderd patroon voor het configureren van JAR's als taken. Databricks raadt aan om de JAR-taak te gebruiken. Zie de JAR-taak voor taken.

Vereisten

  • U kunt spark-submit-taken alleen uitvoeren op nieuwe clusters.
  • U moet uw JAR-bestand uploaden naar een locatie of Maven-opslagplaats die compatibel is met uw rekenconfiguratie. Zie ondersteuning voor Java- en Scala-bibliotheken.
  • U hebt geen toegang tot JAR-bestanden die zijn opgeslagen in volumes.
  • Spark-submit biedt geen ondersteuning voor automatische schaalaanpassing van clusters. Zie Automatische schaalaanpassing van clusters voor meer informatie over automatisch schalen.
  • Spark-submit biedt geen ondersteuning voor Databricks Utilities-verwijzing (dbutils). Als u Databricks Utilities wilt gebruiken, gebruikt u in plaats daarvan JAR-taken.
  • Als u een Unity Catalog-cluster gebruikt, wordt spark-submit alleen ondersteund als het cluster gebruikmaakt van de toegangsmodus voor één gebruiker. De modus voor gedeelde toegang wordt niet ondersteund. Zie Access-modi.
  • Voor gestructureerde streamingtaken mag nooit een maximum aantal gelijktijdige uitvoeringen zijn ingesteld op groter dan 1. Streamingtaken moeten worden ingesteld om te worden uitgevoerd met behulp van de cron-expressie "* * * * * ?" (elke minuut). Omdat een streamingtaak continu wordt uitgevoerd, moet deze altijd de laatste taak in een taak zijn.

Een Spark Submit-taak configureren

Voeg als volgt een Spark Submit taak toe vanaf het tabblad Taken in de gebruikersinterface taken:

  1. Selecteer in de vervolgkeuzelijst Spark Submit.
  2. Gebruik Compute om een cluster te configureren dat ondersteuning biedt voor de logica in uw taak.
  3. Gebruik het tekstvak Parameters om alle argumenten en configuraties op te geven die nodig zijn om uw taak uit te voeren als een JSON-matrix met tekenreeksen.
    • De eerste drie argumenten worden gebruikt om de hoofdklasse te identificeren die moet worden uitgevoerd in een JAR op een opgegeven pad, zoals in het volgende voorbeeld:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • U kunt de masterinstellingen deploy-modedie zijn geconfigureerd door Azure Databricks, niet executor-cores overschrijven

    • Gebruik --jars en --py-files voeg afhankelijke Java-, Scala- en Python-bibliotheken toe.

    • Gebruik --conf om Spark-configuraties in te stellen.

    • De --jarsargumenten --py-files--files ondersteunen DBFS-paden.

    • De Spark-verzendtaak maakt standaard gebruik van alle beschikbare geheugen, met uitzondering van geheugen dat is gereserveerd voor Azure Databricks-services. U kunt --driver-memoryen --executor-memory op een kleinere waarde instellen om extra ruimte vrij te maken voor gebruik buiten de heap.

  4. Klik op Taak opslaan.