Muchos trabajos pequeños de Spark
Si ve muchos trabajos pequeños, es probable que esté realizando muchas operaciones en datos relativamente pequeños (<10 GB). Las operaciones pequeñas tardan pocos segundos, pero se suman todas, y el tiempo invertido en sobrecarga por operación también se suma.
El mejor enfoque para acelerar los trabajos pequeños es ejecutar varias operaciones en paralelo. Delta Live Tables lo hará automáticamente.
Otras opciones incluyen:
- Separe las operaciones en varios cuadernos y ejecútelos en paralelo en el mismo clúster mediante trabajos de varias tareas.
- Use almacenes de SQL si todas las consultas se escriben en SQL. Los almacenes de SQL se escalan muy bien para muchas consultas que se ejecutan en paralelo, ya que se diseñaron para este tipo de carga de trabajo.
- Parametrice el cuaderno y use la tarea for each para ejecutar el cuaderno varias veces en paralelo. Use Simultaneidad para establecer el nivel de paralelización. Esto funciona bien con el proceso sin servidor.