Modus für hohe Parallelität in Apache Spark für Fabric
Im Modus für hohe Parallelität können Benutzer*innen Spark-Sitzungen in Spark für Fabric für Datentechnik- und Data Science-Workloads gemeinsam nutzen. Ein Element wie ein Notebook verwendet eine Spark-Standardsitzung für die Ausführung. Im Modus für hohe Parallelität kann die Spark-Sitzung die unabhängige Ausführung mehrerer Elemente innerhalb einzelner REPL-Kerne (read–eval–print-Loop) unterstützen, die in der Spark-Anwendung enthalten sind. Diese REPL-Kerne bieten Isolation für jedes Element und verhindern, dass lokale Notebookvariablen von Variablen mit demselben Namen aus anderen Notebooks aus derselben Sitzung überschrieben werden.
Da die Sitzung bereits ausgeführt wird, ermöglicht dies Benutzer*innen eine sofortige Ausführung, wenn die Sitzung über mehrere Notebooks hinweg wiederverwendet wird.
Hinweis
Bei benutzerdefinierten Pools im Modus für hohe Parallelität erzielen Benutzer*innen einen um den Faktor 36 schnelleren Sitzungsstart im Vergleich zu einer Spark-Standardsitzung.
Wichtig
Bedingungen für die Sitzungsfreigabe:
- Die Sitzungen sollten innerhalb einer einzigen Benutzergrenze sein.
- Die Sitzungen sollten die gleiche Standardkonfiguration für das Lakehouse aufweisen.
- Die Sitzungen sollten über die gleichen Spark-Computeeigenschaften verfügen.
Während der Initialisierung der Spark-Sitzung wird ein REPL-Kern erstellt. Jedes Mal, wenn ein neues Element mit der gemeinsamen Nutzung derselben Sitzung beginnt, werden die Executors den Notebooks, die in diesen REPL-Kernen innerhalb der Spark-Anwendung ausgeführt werden, gleichmäßig zugewiesen, um Ressourcenmangel zu verhindern.
Zugehöriger Inhalt
- Informationen zu den ersten Schritten mit dem Modus für hohe Parallelität in Notebooks finden Sie unter Konfigurieren des Modus für hohe Parallelität für Fabric-Notebooks.