Много небольших заданий Spark
Если вы видите много небольших заданий, скорее всего, вы выполняете много операций с относительно небольшими данными (<10 ГБ). Небольшие операции занимают всего несколько секунд, но в итоге складываются, а время, затраченное на каждую операцию на накладные расходы, также накапливается.
Лучший подход к ускорению небольших заданий — параллельное выполнение нескольких операций. Delta Live Tables выполняют это автоматически для вас.
Другие варианты включают:
- Разделите операции на несколько записных книжек и выполните их параллельно на том же кластере с помощью заданий с несколькими задачами.
- Используйте хранилища SQL, если все ваши запросы написаны на SQL. Хранилища SQL масштабируются очень хорошо для многих запросов параллельно, так как они были разработаны для этого типа рабочей нагрузки.
- Параметризуйте вашу записную книжку и используйте ее для каждой задачи, чтобы запускать записную книжку параллельно несколько раз. Используйте параллелизм, чтобы задать уровень параллелизации. Это хорошо работает с бессерверными вычислениями.