Dela via


Läge för hög samtidighet i Apache Spark för Infrastrukturresurser

Med läget hög samtidighet kan användarna dela samma Spark-sessioner i Spark för Infrastruktur för datateknik och datavetenskapsarbetsbelastningar. Ett objekt som en notebook-fil använder en Standard Spark-session för dess körning. I hög samtidighetsläge kan Spark-sessionen stödja oberoende körning av flera objekt i enskilda REPL-kärnor (read-eval-print loop) som finns i Spark-programmet. Dessa REPL-kärnor ger isolering för varje objekt och förhindrar att lokala notebook-variabler skrivs över av variabler med samma namn från andra notebook-filer som delar samma session.

Eftersom sessionen redan körs ger detta användarna en omedelbar körningsupplevelse när de återanvänder sessionen över flera notebook-filer.

Kommentar

När det gäller anpassade pooler med hög samtidighetsläge får användarna 36 X snabbare startupplevelse för sessioner jämfört med en Spark-standardsession.

Diagram som visar hur hög samtidighetsläge fungerar i Infrastrukturresurser.

Viktigt!

Villkor för sessionsdelning omfattar:

  • Sessioner bör ligga inom en enskild användargräns.
  • Sessioner bör ha samma standardkonfiguration för lakehouse.
  • Sessioner bör ha samma Spark-beräkningsegenskaper.

Som en del av Spark-sessionsinitiering skapas en REPL-kärna. Varje gång ett nytt objekt börjar dela samma session och utförarna allokeras på FAIR-baserat sätt till dessa notebook-filer som körs i dessa REPL-kärnor i Spark-programmet som förhindrar svältscenarier.