共用方式為


Spark 提交 (舊版)

Spark 提交任務類型是將 JAR 設定為工作的舊版模式。 Databricks 建議使用 JAR 任務。 請參閱工作的 JAR 任務

需求

  • 您只能在新的叢集上執行 spark-submit 工作。
  • 您必須將 JAR 檔案上傳至與計算組態相容的位置或 Maven 存放庫。 請參閱 Java 和 Scala 程式庫支援
  • 您無法存取儲存在 volumes中的 JAR 檔案。
  • Spark-submit 不支援叢集自動調整。 若要深入瞭解自動調整,請參閱叢集自動調整
  • Spark-submit 不支援 Databricks 公用程式 (dbutils) 參考。 要使用 Databricks 公用程式,請改用 JAR 工作。
  • 如果您使用已啟用 Unity Catalog的叢集,只有在叢集使用單一使用者存取模式時,才支援 spark-submit。 不支援共用存取模式。 請參閱存取模式
  • 結構化串流作業不應該有最大並行執行 set 大於 1。 串流作業應該 set 使用cron運算式 "* * * * * ?" 執行(每分鐘)。 因為串流工作會持續執行,所以一律應該是作業中的最終工作。

設定 Spark 提交任務

透過執行下列動作,從工作 UI 的 [任務]Spark Submit 索引標籤新增 任務:

  1. 在 [類型 下拉選單中,selectSpark Submit
  2. 使用 [計算] 來設定在任務中支援邏輯的叢集。
  3. 使用 [Parameters] 文本框,提供執行工作作為字串 JSON 陣列所需的所有自變數和組態。
    • 前三個引數用於識別在指定路徑的 JAR 中執行的主要類別,如下列範例所示:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • 您無法覆寫 Azure Databricks 所設定的 masterdeploy-modeexecutor-cores 設定

    • 使用 --jars--py-files 來新增相依的 Java、Scala 和 Python 程式庫。

    • 使用 --conf 到 set Spark 配置。

    • --jars--py-files--files 引數支援 DBFS 路徑。

    • 根據預設,Spark 提交工作會使用所有可用記憶體,不包括為 Azure Databricks 服務保留的記憶體。 您可以將 set--driver-memory--executor-memory 設置為較小的值,以保留部分空間供資料分堆外使用。

  4. 按一下 [儲存任務]