Spark 提交 (舊版)
Spark 提交任務類型是將 JAR 設定為工作的舊版模式。 Databricks 建議使用 JAR 任務。 請參閱工作的 JAR 任務。
需求
- 您只能在新的叢集上執行 spark-submit 工作。
- 您必須將 JAR 檔案上傳至與計算組態相容的位置或 Maven 存放庫。 請參閱 Java 和 Scala 程式庫支援。
- 您無法存取儲存在 volumes中的 JAR 檔案。
- Spark-submit 不支援叢集自動調整。 若要深入瞭解自動調整,請參閱叢集自動調整。
- Spark-submit 不支援 Databricks 公用程式 (dbutils) 參考。 要使用 Databricks 公用程式,請改用 JAR 工作。
- 如果您使用已啟用 Unity Catalog的叢集,只有在叢集使用單一使用者存取模式時,才支援 spark-submit。 不支援共用存取模式。 請參閱存取模式。
- 結構化串流作業不應該有最大並行執行 set 大於 1。 串流作業應該 set 使用cron運算式
"* * * * * ?"
執行(每分鐘)。 因為串流工作會持續執行,所以一律應該是作業中的最終工作。
設定 Spark 提交任務
透過執行下列動作,從工作 UI 的 [任務]Spark Submit
索引標籤新增 任務:
- 在 [類型 下拉選單中,select
Spark Submit
。 - 使用 [計算] 來設定在任務中支援邏輯的叢集。
- 使用 [Parameters] 文本框,提供執行工作作為字串 JSON 陣列所需的所有自變數和組態。
前三個引數用於識別在指定路徑的 JAR 中執行的主要類別,如下列範例所示:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
您無法覆寫 Azure Databricks 所設定的
master
、deploy-mode
和executor-cores
設定使用
--jars
和--py-files
來新增相依的 Java、Scala 和 Python 程式庫。使用
--conf
到 set Spark 配置。--jars
、--py-files
、--files
引數支援 DBFS 路徑。根據預設,Spark 提交工作會使用所有可用記憶體,不包括為 Azure Databricks 服務保留的記憶體。 您可以將 set
--driver-memory
和--executor-memory
設置為較小的值,以保留部分空間供資料分堆外使用。
- 按一下 [儲存任務]。