Freigeben über


Modus für hohe Parallelität in Apache Spark für Fabric

Im Modus für hohe Parallelität können Benutzer*innen Spark-Sitzungen in Spark für Fabric für Datentechnik- und Data Science-Workloads gemeinsam nutzen. Ein Element wie ein Notebook verwendet eine Spark-Standardsitzung für die Ausführung. Im Modus für hohe Parallelität kann die Spark-Sitzung die unabhängige Ausführung mehrerer Elemente innerhalb einzelner REPL-Kerne (read–eval–print-Loop) unterstützen, die in der Spark-Anwendung enthalten sind. Diese REPL-Kerne bieten Isolation für jedes Element und verhindern, dass lokale Notebookvariablen von Variablen mit demselben Namen aus anderen Notebooks aus derselben Sitzung überschrieben werden.

Da die Sitzung bereits ausgeführt wird, ermöglicht dies Benutzer*innen eine sofortige Ausführung, wenn die Sitzung über mehrere Notebooks hinweg wiederverwendet wird.

Hinweis

Bei benutzerdefinierten Pools im Modus für hohe Parallelität erzielen Benutzer*innen einen um den Faktor 36 schnelleren Sitzungsstart im Vergleich zu einer Spark-Standardsitzung.

Diagramm, das die Arbeit des Modus für hohe Parallelität in Fabric zeigt.

Wichtig

Bedingungen für die Sitzungsfreigabe:

  • Die Sitzungen sollten innerhalb einer einzigen Benutzergrenze sein.
  • Die Sitzungen sollten die gleiche Standardkonfiguration für das Lakehouse aufweisen.
  • Die Sitzungen sollten über die gleichen Spark-Computeeigenschaften verfügen.

Während der Initialisierung der Spark-Sitzung wird ein REPL-Kern erstellt. Jedes Mal, wenn ein neues Element mit der gemeinsamen Nutzung derselben Sitzung beginnt, werden die Executors den Notebooks, die in diesen REPL-Kernen innerhalb der Spark-Anwendung ausgeführt werden, gleichmäßig zugewiesen, um Ressourcenmangel zu verhindern.