Поделиться через


Много небольших заданий Spark

Если вы видите много небольших заданий, скорее всего, вы выполняете много операций с относительно небольшими данными (<10 ГБ). Небольшие операции занимают всего несколько секунд, но в итоге складываются, а время, затраченное на каждую операцию на накладные расходы, также накапливается.

Лучший подход к ускорению небольших заданий — параллельное выполнение нескольких операций. Delta Live Tables выполняют это автоматически для вас.

Другие варианты включают:

  • Разделите операции на несколько записных книжек и выполните их параллельно на том же кластере с помощью заданий с несколькими задачами.
  • Используйте хранилища SQL, если все ваши запросы написаны на SQL. Хранилища SQL масштабируются очень хорошо для многих запросов параллельно, так как они были разработаны для этого типа рабочей нагрузки.
  • Параметризуйте вашу записную книжку и используйте ее для каждой задачи, чтобы запускать записную книжку параллельно несколько раз. Используйте параллелизм, чтобы задать уровень параллелизации. Это хорошо работает с бессерверными вычислениями.