Przesyłanie platformy Spark (starsza wersja)
Typ zadania Przesyłanie platformy Spark to starszy wzorzec konfigurowania żądań JAR jako zadań podrzędnych. Usługa Databricks zaleca użycie zadania JAR . Zobacz Zadanie JAR dla zadań.
Wymagania
- Zadania przesyłania platformy Spark można uruchamiać tylko w nowych klastrach.
- Plik JAR należy przekazać do lokalizacji lub repozytorium Maven zgodnego z konfiguracją obliczeniową. Zobacz Obsługa bibliotek Java i Scala.
- Nie można uzyskać dostępu do plików JAR przechowywanych w woluminach.
- Przesyłanie na platformie Spark nie obsługuje skalowania automatycznego klastra. Aby dowiedzieć się więcej na temat skalowania automatycznego, zobacz Skalowanie automatyczne klastra.
- Przesyłanie platformy Spark nie obsługuje dokumentacji narzędzi usługi Databricks (dbutils). Aby użyć narzędzi usługi Databricks, użyj zadań JAR.
- Jeśli używasz klastra z obsługą wykazu aparatu Unity, przesyłanie spark-submit jest obsługiwane tylko wtedy, gdy klaster korzysta z trybu dostępu pojedynczego użytkownika. Tryb dostępu współdzielonego nie jest obsługiwany. Zobacz Tryby dostępu.
- Zadania przesyłania strumieniowego ze strukturą nigdy nie powinny mieć maksymalnej liczby współbieżnych przebiegów ustawionych na wartość większą niż 1. Zadania przesyłania strumieniowego powinny być uruchamiane przy użyciu wyrażenia
"* * * * * ?"
cron (co minutę). Ponieważ zadanie przesyłania strumieniowego jest uruchamiane w sposób ciągły, zawsze powinno być ostatnim zadaniem w zadaniu.
Konfigurowanie zadania przesyłania platformy Spark
Spark Submit
Dodaj zadanie z karty Zadania w interfejsie użytkownika zadań, wykonując następujące czynności:
- W menu rozwijanym Typ wybierz pozycję
Spark Submit
. - Użyj funkcji Compute , aby skonfigurować klaster obsługujący logikę w zadaniu.
- Użyj pola tekstowego Parametry , aby podać wszystkie argumenty i konfiguracje niezbędne do uruchomienia zadania jako tablicy ciągów JSON.
Pierwsze trzy argumenty służą do identyfikowania klasy głównej do uruchomienia w pliku JAR w określonej ścieżce, jak w poniższym przykładzie:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Nie można zastąpić ustawień ,
deploy-mode
iexecutor-cores
skonfigurowanych przez usługęmaster
Azure DatabricksUżyj funkcji
--jars
i--py-files
, aby dodać zależne biblioteki Java, Scala i Python.Użyj
--conf
polecenia , aby ustawić konfiguracje platformy Spark.--jars
Argumenty ,--files
--py-files
obsługują ścieżki systemu plików DBFS.Domyślnie zadanie przesyłania platformy Spark używa całej dostępnej pamięci, z wyłączeniem pamięci zarezerwowanej dla usług Azure Databricks. Możesz ustawić
--driver-memory
wartość i--executor-memory
na mniejszą wartość, aby pozostawić trochę miejsca na użycie sterty poza stertą.
- Kliknij pozycję Zapisz zadanie.