Condividi tramite


Spark Submit (legacy)

Il tipo di task Spark Submit è un criterio legacy per la configurazione di JAR come task. Databricks consiglia di usare il task JAR. Vedere Task JAR per i processi.

Requisiti

  • È possibile eseguire attività spark-submit solo in nuovi cluster.
  • È necessario caricare il file JAR in un percorso o in un repository Maven compatibile con la configurazione di calcolo. Vedere Supporto per le librerie Java e Scala.
  • Non è possibile accedere ai file JAR archiviati in volumes.
  • Spark-submit non supporta la scalabilità automatica del cluster. Per altre informazioni sulla scalabilità automatica, vedere Scalabilità automatica del cluster.
  • Spark-submit non supporta le utilità di Databricks (dbutils). Per usare le utilità di Databricks, usare invece le attività JAR.
  • Se si usa un cluster abilitato per Unity Catalog, spark-submit è supportato solo se il cluster usa la modalità di accesso utente singolo. La modalità di accesso condiviso non è supportata. Vedere Modalità di accesso usata.
  • I processi Structured Streaming non devono mai avere un massimo di esecuzioni simultanee set superiore a 1. I processi di streaming dovrebbero essere set per essere eseguiti utilizzando l'espressione cron "* * * * * ?" (ogni minuto). Poiché un'attività di streaming viene eseguita continuamente, deve essere sempre l'attività finale in un processo.

Configurare un task Spark Submit

Aggiungere un'attività Spark Submit dalla scheda Tasks (Attività) nell'interfaccia utente Jobs (Processi) eseguendo le operazioni seguenti:

  1. Nel menu a discesa Tipo digitareselectSpark Submit.
  2. Usare Calcolo per configurare un cluster che supporta la logica nel task.
  3. Usare la casella di testo Parameters per fornire tutti gli argomenti e le configurazioni necessari per eseguire l'attività come matrice JSON di stringhe.
    • I primi tre argomenti vengono usati per identificare la classe principale da eseguire in un file JAR in un percorso specificato, come nell'esempio seguente:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Non è possibile sostituire le impostazioni master, deploy-mode e executor-cores configurate da Azure Databricks

    • Usare --jars e --py-files per aggiungere librerie Java, Scala e Python dipendenti.

    • Utilizzare le configurazioni Spark da --conf a set.

    • Gli argomenti --jars, --py-files, --files supportano i percorsi DBFS.

    • Per impostazione predefinita, il processo Spark Submit usa tutta la memoria disponibile, esclusa la memoria riservata per i servizi Azure Databricks. È possibile set--driver-memorye --executor-memory a un valore inferiore per lasciare spazio per l'utilizzo off-heap.

  4. Cliccare Salva task.