Udostępnij za pośrednictwem


Przesyłanie platformy Spark (starsza wersja)

Typ zadania Przesyłanie platformy Spark to starszy wzorzec konfigurowania żądań JAR jako zadań podrzędnych. Usługa Databricks zaleca użycie zadania JAR . Zobacz Zadanie JAR dla zadań.

Wymagania

  • Zadania przesyłania platformy Spark można uruchamiać tylko w nowych klastrach.
  • Plik JAR należy przekazać do lokalizacji lub repozytorium Maven zgodnego z konfiguracją obliczeniową. Zobacz Obsługa bibliotek Java i Scala.
  • Nie można uzyskać dostępu do plików JAR przechowywanych w woluminach.
  • Przesyłanie na platformie Spark nie obsługuje skalowania automatycznego klastra. Aby dowiedzieć się więcej na temat skalowania automatycznego, zobacz Skalowanie automatyczne klastra.
  • Przesyłanie platformy Spark nie obsługuje dokumentacji narzędzi usługi Databricks (dbutils). Aby użyć narzędzi usługi Databricks, użyj zadań JAR.
  • Jeśli używasz klastra z obsługą wykazu aparatu Unity, przesyłanie spark-submit jest obsługiwane tylko wtedy, gdy klaster korzysta z trybu dostępu pojedynczego użytkownika. Tryb dostępu współdzielonego nie jest obsługiwany. Zobacz Tryby dostępu.
  • Zadania przesyłania strumieniowego ze strukturą nigdy nie powinny mieć maksymalnej liczby współbieżnych przebiegów ustawionych na wartość większą niż 1. Zadania przesyłania strumieniowego powinny być uruchamiane przy użyciu wyrażenia "* * * * * ?" cron (co minutę). Ponieważ zadanie przesyłania strumieniowego jest uruchamiane w sposób ciągły, zawsze powinno być ostatnim zadaniem w zadaniu.

Konfigurowanie zadania przesyłania platformy Spark

Spark Submit Dodaj zadanie z karty Zadania w interfejsie użytkownika zadań, wykonując następujące czynności:

  1. W menu rozwijanym Typ wybierz pozycję Spark Submit.
  2. Użyj funkcji Compute , aby skonfigurować klaster obsługujący logikę w zadaniu.
  3. Użyj pola tekstowego Parametry , aby podać wszystkie argumenty i konfiguracje niezbędne do uruchomienia zadania jako tablicy ciągów JSON.
    • Pierwsze trzy argumenty służą do identyfikowania klasy głównej do uruchomienia w pliku JAR w określonej ścieżce, jak w poniższym przykładzie:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Nie można zastąpić ustawień , deploy-modei executor-cores skonfigurowanych przez usługę masterAzure Databricks

    • Użyj funkcji --jars i --py-files , aby dodać zależne biblioteki Java, Scala i Python.

    • Użyj --conf polecenia , aby ustawić konfiguracje platformy Spark.

    • --jarsArgumenty , --files --py-filesobsługują ścieżki systemu plików DBFS.

    • Domyślnie zadanie przesyłania platformy Spark używa całej dostępnej pamięci, z wyłączeniem pamięci zarezerwowanej dla usług Azure Databricks. Możesz ustawić --driver-memorywartość i --executor-memory na mniejszą wartość, aby pozostawić trochę miejsca na użycie sterty poza stertą.

  4. Kliknij pozycję Zapisz zadanie.