Sdílet prostřednictvím


Odeslání Sparku (starší verze)

Typ úlohy Odeslání Sparku je starší vzor pro konfiguraci jar jako úkolů. Databricks doporučuje použít úlohu JAR . Viz úkol JAR pro úlohy.

Požadavky

  • Úlohy spark-submit můžete spouštět jenom v nových clusterech.
  • Soubor JAR musíte nahrát do umístění nebo úložiště Maven kompatibilního s konfigurací výpočetních prostředků. Viz podpora knihoven Java a Scala.
  • Nelze získat přístup k souborům JAR uloženým v volumes.
  • Spark-submit nepodporuje automatické škálování clusteru. Další informace o automatickém škálování najdete v tématu Automatické škálování clusteru.
  • Spark-submit nepodporuje referenční informace k nástrojům Databricks (dbutils). Pokud chcete použít nástroje Databricks, použijte místo toho úlohy JAR.
  • Pokud používáte cluster Unity s podporou Catalog, podporuje se spark-submit jenom v případě, že cluster používá režim přístupu jednoho uživatele. Režim sdíleného přístupu není podporován. Viz režimy Accessu.
  • Úlohy strukturovaného streamování by nikdy neměly mít maximální počet souběžných spuštění set větší než 1. Úlohy streamování by měly být set ke spuštění pomocí výrazu cron "* * * * * ?" (každou minutu). Vzhledem k tomu, že úloha streamování běží nepřetržitě, měla by být vždy konečným úkolem v úloze.

Konfigurace úlohy odeslání Sparku

Spark Submit Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:

  1. V rozevírací nabídce TypselectSpark Submit.
  2. Pomocí služby Compute nakonfigurujte cluster, který podporuje logiku ve vaší úloze.
  3. Pomocí textového pole Parameters zadejte všechny argumenty a konfigurace potřebné ke spuštění úlohy jako pole řetězců JSON.
    • První tři argumenty slouží k identifikaci hlavní třídy, která se má spustit v souboru JAR v zadané cestě, jak je znázorněno v následujícím příkladu:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Nemůžete přepsat masternastavení a deploy-mode nastavení executor-coresnakonfigurovaná službou Azure Databricks.

    • Použijte --jars a --py-files přidejte závislé knihovny Java, Scala a Python.

    • Použijte konfigurace Sparku od --conf do set.

    • Argumenty --jars, --py-files--filespodporují cesty DBFS.

    • Úloha odeslání Sparku ve výchozím nastavení používá veškerou dostupnou paměť s výjimkou paměti rezervované pro služby Azure Databricks. Můžete nastavit set--driver-memorya --executor-memory na menší hodnotu, abyste nechali místo pro použití mimo haldu.

  4. Klikněte na Uložit úkol.