Odeslání Sparku (starší verze)

Typ úlohy Odeslání Sparku je starší vzor pro konfiguraci jar jako úkolů. Databricks doporučuje použít úlohu JAR . Viz úkol JAR pro úlohy.

Požadavky

Úlohy spark-submit můžete spouštět jenom v nových clusterech.
Soubor JAR musíte nahrát do umístění nebo úložiště Maven kompatibilního s konfigurací výpočetních prostředků. Viz podpora knihoven Java a Scala.
Nelze získat přístup k souborům JAR uloženým v volumes.
Spark-submit nepodporuje automatické škálování clusteru. Další informace o automatickém škálování najdete v tématu Automatické škálování clusteru.
Spark-submit nepodporuje referenční informace k nástrojům Databricks (dbutils). Pokud chcete použít nástroje Databricks, použijte místo toho úlohy JAR.
Pokud používáte cluster Unity s podporou Catalog, podporuje se spark-submit jenom v případě, že cluster používá režim přístupu jednoho uživatele. Režim sdíleného přístupu není podporován. Viz režimy Accessu.
Úlohy strukturovaného streamování by nikdy neměly mít maximální počet souběžných spuštění set větší než 1. Úlohy streamování by měly být set ke spuštění pomocí výrazu cron "* * * * * ?" (každou minutu). Vzhledem k tomu, že úloha streamování běží nepřetržitě, měla by být vždy konečným úkolem v úloze.

Spark Submit Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:

V rozevírací nabídce TypselectSpark Submit.
Pomocí služby Compute nakonfigurujte cluster, který podporuje logiku ve vaší úloze.
Pomocí textového pole Parameters zadejte všechny argumenty a konfigurace potřebné ke spuštění úlohy jako pole řetězců JSON.
- První tři argumenty slouží k identifikaci hlavní třídy, která se má spustit v souboru JAR v zadané cestě, jak je znázorněno v následujícím příkladu:
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Nemůžete přepsat masternastavení a deploy-mode nastavení executor-coresnakonfigurovaná službou Azure Databricks.
- Použijte --jars a --py-files přidejte závislé knihovny Java, Scala a Python.
- Použijte konfigurace Sparku od --conf do set.
- Argumenty --jars, --py-files--filespodporují cesty DBFS.
- Úloha odeslání Sparku ve výchozím nastavení používá veškerou dostupnou paměť s výjimkou paměti rezervované pro služby Azure Databricks. Můžete nastavit set--driver-memorya --executor-memory na menší hodnotu, abyste nechali místo pro použití mimo haldu.
Klikněte na Uložit úkol.