Compartilhar via


Muitos trabalhos pequenos do Spark

Se você vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações em dados relativamente pequenos (<10 GB). As operações pequenas levam apenas alguns segundos cada uma, mas elas se acumulam, e o tempo gasto na sobrecarga por operação também se acumula.

A melhor abordagem para acelerar trabalhos pequenos é executar várias operações em paralelo. As Delta Live Tables fazem isso automaticamente.

Outras opções incluem:

  • Separe suas operações em vários notebooks e execute-as em paralelo no mesmo cluster usando trabalhos de várias tarefas.
  • Use os SQL warehouses se todas as suas consultas forem gravadas no SQL. Os SQL warehouses são muito bem dimensionados para muitas consultas executadas em paralelo, pois foram projetadas para esse tipo de carga de trabalho.
  • Parametrize seu notebook e use o para cada tarefa para executar seu notebook várias vezes em paralelo. Use Simultaneidade para definir o nível de paralelização. Isso funciona bem com computação sem servidor.