Odeslání Sparku (starší verze)
Typ úlohy Odeslání Sparku je starší vzor pro konfiguraci jar jako úkolů. Databricks doporučuje použít úlohu JAR . Viz úkol JAR pro úlohy.
Požadavky
- Úlohy spark-submit můžete spouštět jenom v nových clusterech.
- Soubor JAR musíte nahrát do umístění nebo úložiště Maven kompatibilního s konfigurací výpočetních prostředků. Viz podpora knihoven Java a Scala.
- Nelze získat přístup k souborům JAR uloženým v volumes.
- Spark-submit nepodporuje automatické škálování clusteru. Další informace o automatickém škálování najdete v tématu Automatické škálování clusteru.
- Spark-submit nepodporuje referenční informace k nástrojům Databricks (dbutils). Pokud chcete použít nástroje Databricks, použijte místo toho úlohy JAR.
- Pokud používáte cluster Unity s podporou Catalog, podporuje se spark-submit jenom v případě, že cluster používá režim přístupu jednoho uživatele. Režim sdíleného přístupu není podporován. Viz režimy Accessu.
- Úlohy strukturovaného streamování by nikdy neměly mít maximální počet souběžných spuštění set větší než 1. Úlohy streamování by měly být set ke spuštění pomocí výrazu cron
"* * * * * ?"
(každou minutu). Vzhledem k tomu, že úloha streamování běží nepřetržitě, měla by být vždy konečným úkolem v úloze.
Konfigurace úlohy odeslání Sparku
Spark Submit
Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:
- V rozevírací nabídce Typselect
Spark Submit
. - Pomocí služby Compute nakonfigurujte cluster, který podporuje logiku ve vaší úloze.
- Pomocí textového pole Parameters zadejte všechny argumenty a konfigurace potřebné ke spuštění úlohy jako pole řetězců JSON.
První tři argumenty slouží k identifikaci hlavní třídy, která se má spustit v souboru JAR v zadané cestě, jak je znázorněno v následujícím příkladu:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Nemůžete přepsat
master
nastavení adeploy-mode
nastaveníexecutor-cores
nakonfigurovaná službou Azure Databricks.Použijte
--jars
a--py-files
přidejte závislé knihovny Java, Scala a Python.Použijte konfigurace Sparku od
--conf
do set.Argumenty
--jars
,--py-files
--files
podporují cesty DBFS.Úloha odeslání Sparku ve výchozím nastavení používá veškerou dostupnou paměť s výjimkou paměti rezervované pro služby Azure Databricks. Můžete nastavit set
--driver-memory
a--executor-memory
na menší hodnotu, abyste nechali místo pro použití mimo haldu.
- Klikněte na Uložit úkol.