Udostępnij za pośrednictwem


Przesyłanie platformy Spark (starsza wersja)

Typ zadania Przesyłanie platformy Spark to starszy wzorzec konfigurowania żądań JAR jako zadań podrzędnych. Usługa Databricks zaleca użycie zadania JAR . Zobacz Zadanie JAR dla zadań.

Wymagania

  • Zadania przesyłania platformy Spark można uruchamiać tylko w nowych klastrach.
  • Plik JAR należy przekazać do lokalizacji lub repozytorium Maven zgodnego z konfiguracją obliczeniową. Zobacz Obsługa bibliotek Java i Scala.
  • Nie można uzyskać dostępu do plików JAR przechowywanych w woluminach.
  • Przesyłanie na platformie Spark nie obsługuje skalowania automatycznego klastra. Aby dowiedzieć się więcej na temat skalowania automatycznego, zobacz Skalowanie automatyczne klastra.
  • Przesyłanie platformy Spark nie obsługuje dokumentacji narzędzi usługi Databricks (dbutils). Aby użyć narzędzi usługi Databricks, użyj zadań JAR.
  • Jeśli używasz klastra z włączonym Unity Catalog, polecenie 'spark-submit' jest obsługiwane tylko wtedy, gdy klaster działa w trybie dostępu pojedynczego użytkownika. Tryb dostępu współdzielonego nie jest obsługiwany. Zobacz Tryby dostępu.
  • Zadania strukturalnego przesyłania strumieniowego nigdy nie powinny mieć maksymalnej liczby współbieżnych uruchomień ustawionej na wartość większą niż 1. Zadania przesyłania strumieniowego powinny być uruchamiane przy użyciu wyrażenia cron "* * * * * ?" (co minutę). Ponieważ zadanie przesyłania strumieniowego jest uruchamiane w sposób ciągły, zawsze powinno być ostatnim zadaniem w zadaniu.

Konfigurowanie zadania przesyłania platformy Spark

Spark Submit Dodaj zadanie z karty Zadania w interfejsie użytkownika zadań, wykonując następujące czynności:

  1. W menu rozwijanym Typ wybierz pozycjęSpark Submit.
  2. Użyj funkcji Compute , aby skonfigurować klaster obsługujący logikę w zadaniu.
  3. Użyj pola tekstowego parametry , aby podać wszystkie argumenty i konfiguracje niezbędne do uruchomienia zadania jako tablicy ciągów JSON.
    • Pierwsze trzy argumenty służą do identyfikowania klasy głównej do uruchomienia w pliku JAR w określonej ścieżce, jak w poniższym przykładzie:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Nie można zastąpić ustawień , masteri deploy-mode skonfigurowanych przez usługę executor-coresAzure Databricks

    • Użyj funkcji --jars i --py-files , aby dodać zależne biblioteki Java, Scala i Python.

    • Użyj --conf, aby ustawić konfiguracje platformy Spark.

    • --jarsArgumenty , --py-files--filesobsługują ścieżki systemu plików DBFS.

    • Domyślnie zadanie przesyłania platformy Spark używa całej dostępnej pamięci, z wyłączeniem pamięci zarezerwowanej dla usług Azure Databricks. Możesz ustawić --driver-memoryi --executor-memory na mniejszą wartość, aby pozostawić pewne miejsce na użycie poza stertą.

  4. Kliknij pozycję Zapisz zadanie.