Udostępnij za pośrednictwem


Tryb wysokiej współbieżności na platformie Apache Spark dla sieci szkieletowej

Tryb wysokiej współbieżności umożliwia użytkownikom współużytkowanie tych samych sesji platformy Spark na platformie Spark for Fabric na potrzeby obciążeń inżynierii danych i nauki o danych. Element podobny do notesu używa standardowej sesji platformy Spark do jego wykonania. W trybie wysokiej współbieżności sesja platformy Spark może obsługiwać niezależne wykonywanie wielu elementów w ramach poszczególnych rdzeni pętli odczytu-eval-print (REPL), które istnieją w aplikacji Spark. Te rdzenie REPL zapewniają izolację każdego elementu i uniemożliwiają zastępowanie zmiennych notesu lokalnego przez zmienne o tej samej nazwie z innych notesów współużytkowania tej samej sesji.

Ponieważ sesja jest już uruchomiona, zapewnia to użytkownikom natychmiastowe środowisko uruchamiania podczas ponownego korzystania z sesji w wielu notesach.

Uwaga

W przypadku pul niestandardowych z trybem wysokiej współbieżności użytkownicy uzyskują 36X szybsze środowisko uruchamiania sesji w porównaniu ze standardową sesją platformy Spark.

Diagram przedstawiający działanie trybu wysokiej współbieżności w sieci szkieletowej.

Ważne

Warunki udostępniania sesji obejmują:

  • Sesje powinny znajdować się w obrębie jednej granicy użytkownika.
  • Sesje powinny mieć tę samą domyślną konfigurację usługi Lakehouse.
  • Sesje powinny mieć te same właściwości obliczeniowe platformy Spark.

W ramach inicjowania sesji platformy Spark tworzony jest rdzeń REPL. Za każdym razem, gdy nowy element rozpoczyna udostępnianie tej samej sesji, a funkcje wykonawcze są przydzielane w sposób FAIR na podstawie tych notesów uruchomionych w tych rdzeniach REPL wewnątrz aplikacji Spark, co uniemożliwia wykonywanie scenariuszy głodu.