Partilhar via


Modo de alta simultaneidade no Apache Spark for Fabric

O modo de alta simultaneidade permite que os usuários compartilhem as mesmas sessões do Spark no Spark for Fabric para cargas de trabalho de engenharia e ciência de dados. Um item como um bloco de anotações usa uma sessão padrão do Spark para sua execução. No modo de alta simultaneidade, a sessão do Spark pode suportar a execução independente de vários itens dentro de núcleos individuais de loop de leitura-eval-impressão (REPL) que existem no aplicativo Spark. Esses núcleos REPL fornecem isolamento para cada item e impedem que variáveis de bloco de anotações locais sejam substituídas por variáveis com o mesmo nome de outros blocos de anotações que compartilham a mesma sessão.

Como a sessão já está em execução, isso fornece aos usuários uma experiência de execução instantânea ao reutilizar a sessão em vários blocos de anotações.

Nota

No caso de pools personalizados com modo de alta simultaneidade, os usuários obtêm uma experiência de início de sessão 36X mais rápida em comparação com uma sessão padrão do Spark.

Diagrama mostrando o funcionamento do modo de alta simultaneidade no Fabric.

Importante

As condições de partilha de sessões incluem:

  • As sessões devem estar dentro de um único limite de usuário.
  • As sessões devem ter a mesma configuração padrão do lakehouse.
  • As sessões devem ter as mesmas propriedades de computação do Spark.

Como parte da inicialização da sessão do Spark, um núcleo REPL é criado. Toda vez que um novo item começa a compartilhar a mesma sessão e os executores são alocados de maneira FAIR para esses notebooks em execução nesses núcleos REPL dentro do aplicativo Spark, evitando cenários de fome.