Przesyłanie platformy Spark (starsza wersja)

Artykuł
01/23/2025

Typ zadania Przesyłanie platformy Spark to starszy wzorzec konfigurowania żądań JAR jako zadań podrzędnych. Usługa Databricks zaleca użycie zadania JAR . Zobacz Zadanie JAR dla zadań.

Wymagania

Zadania przesyłania platformy Spark można uruchamiać tylko w nowych klastrach.
Plik JAR należy przekazać do lokalizacji lub repozytorium Maven zgodnego z konfiguracją obliczeniową. Zobacz Obsługa bibliotek Java i Scala.
Nie można uzyskać dostępu do plików JAR przechowywanych w woluminach.
Przesyłanie na platformie Spark nie obsługuje skalowania automatycznego klastra. Aby dowiedzieć się więcej na temat skalowania automatycznego, zobacz Skalowanie automatyczne klastra.
Przesyłanie platformy Spark nie obsługuje dokumentacji narzędzi usługi Databricks (dbutils). Aby użyć narzędzi usługi Databricks, użyj zadań JAR.
Jeśli używasz klastra z włączonym Unity Catalog, polecenie 'spark-submit' jest obsługiwane tylko wtedy, gdy klaster działa w trybie dostępu pojedynczego użytkownika. Tryb dostępu współdzielonego nie jest obsługiwany. Zobacz Tryby dostępu.
Zadania strukturalnego przesyłania strumieniowego nigdy nie powinny mieć maksymalnej liczby współbieżnych uruchomień ustawionej na wartość większą niż 1. Zadania przesyłania strumieniowego powinny być uruchamiane przy użyciu wyrażenia cron "* * * * * ?" (co minutę). Ponieważ zadanie przesyłania strumieniowego jest uruchamiane w sposób ciągły, zawsze powinno być ostatnim zadaniem w zadaniu.

Konfigurowanie zadania przesyłania platformy Spark

Spark Submit Dodaj zadanie z karty Zadania w interfejsie użytkownika zadań, wykonując następujące czynności:

W menu rozwijanym Typ wybierz pozycjęSpark Submit.
Użyj funkcji Compute , aby skonfigurować klaster obsługujący logikę w zadaniu.
Użyj pola tekstowego parametry , aby podać wszystkie argumenty i konfiguracje niezbędne do uruchomienia zadania jako tablicy ciągów JSON.
- Pierwsze trzy argumenty służą do identyfikowania klasy głównej do uruchomienia w pliku JAR w określonej ścieżce, jak w poniższym przykładzie:
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Nie można zastąpić ustawień , masteri deploy-mode skonfigurowanych przez usługę executor-coresAzure Databricks
- Użyj funkcji --jars i --py-files , aby dodać zależne biblioteki Java, Scala i Python.
- Użyj --conf, aby ustawić konfiguracje platformy Spark.
- --jarsArgumenty , --py-files--filesobsługują ścieżki systemu plików DBFS.
- Domyślnie zadanie przesyłania platformy Spark używa całej dostępnej pamięci, z wyłączeniem pamięci zarezerwowanej dla usług Azure Databricks. Możesz ustawić --driver-memoryi --executor-memory na mniejszą wartość, aby pozostawić pewne miejsce na użycie poza stertą.
Kliknij pozycję Zapisz zadanie.

Udostępnij za pośrednictwem

Przesyłanie platformy Spark (starsza wersja)

Wymagania

Konfigurowanie zadania przesyłania platformy Spark

Opinia

Dodatkowe zasoby