Compartir vía


Modo de simultaneidad alta en Apache Spark para Fabric

El modo de simultaneidad alta permite a los usuarios compartir las mismas sesiones de Spark en Spark para Fabric para cargas de trabajo de ingeniería de datos y ciencia de datos. Un elemento como un cuaderno usa una sesión estándar de Spark para su ejecución. En el modo de simultaneidad alta, la sesión de Spark puede admitir la ejecución independiente de varios elementos dentro de núcleos individuales de bucle de lectura eval-impresión (REPL) que existen dentro de la aplicación Spark. Estos núcleos REPL proporcionan aislamiento para cada elemento e impiden que las variables de cuaderno locales se sobrescriban con el mismo nombre de otros cuadernos que comparten la misma sesión.

Como la sesión ya se está ejecutando, esto proporciona a los usuarios una experiencia de ejecución instantánea al reutilizar la sesión en varios cuadernos.

Nota:

En el caso de los grupos personalizados con el modo de simultaneidad alta, los usuarios obtienen una experiencia de inicio de sesión 36 veces más rápida en comparación con una sesión estándar de Spark.

Diagrama que muestra el funcionamiento del modo de alta simultaneidad en Fabric.

Importante

Entre las condiciones para el uso compartido de sesiones se incluyen las siguientes:

  • Las sesiones deben estar dentro de un límite de usuario único.
  • Las sesiones deben tener la misma configuración predeterminada del almacén de lago.
  • Las sesiones deben tener las mismas propiedades de proceso de Spark.

Como parte de la inicialización de la sesión de Spark, se crea un núcleo REPL. Cada vez que un nuevo elemento comience a compartir la misma sesión y los ejecutores se asignen de forma basada en FAIR a estos cuadernos que se ejecutan en estos núcleos REPL dentro de la aplicación Spark, lo que impide escenarios de colapso.