Modus voor hoge gelijktijdigheid in Apache Spark for Fabric
Met de modus Voor hoge gelijktijdigheid kunnen gebruikers dezelfde Spark-sessies in Spark for Fabric delen voor data engineering- en data science-workloads. Een item zoals een notebook maakt gebruik van een standaard Spark-sessie voor de uitvoering ervan. In de modus voor hoge gelijktijdigheid kan de Spark-sessie onafhankelijke uitvoering van meerdere items ondersteunen binnen afzonderlijke REPL-kernen (read-eval-print loop) die aanwezig zijn in de Spark-toepassing. Deze REPL-kernen bieden isolatie voor elk item en voorkomen dat lokale notebookvariabelen worden overschreven door variabelen met dezelfde naam van andere notebooks die dezelfde sessie delen.
Omdat de sessie al wordt uitgevoerd, biedt dit gebruikers een directe uitvoeringservaring bij het hergebruik van de sessie in meerdere notebooks.
Notitie
In het geval van aangepaste pools met een modus voor hoge gelijktijdigheid krijgen gebruikers 36X snellere sessiestartervaring in vergelijking met een standaard Spark-sessie.
Belangrijk
Voorwaarden voor het delen van sessies zijn onder andere:
- Sessies moeten binnen één gebruikersgrens vallen.
- Sessies moeten dezelfde standaard lakehouse-configuratie hebben.
- Sessies moeten dezelfde Spark-rekeneigenschappen hebben.
Als onderdeel van de initialisatie van Spark-sessies wordt een REPL-kern gemaakt. Telkens wanneer een nieuw item dezelfde sessie deelt en de uitvoerders op FAIR gebaseerde wijze worden toegewezen aan deze notebooks die worden uitgevoerd in deze REPL-kernen in de Spark-toepassing, voorkomt starvatiescenario's.