Одна задача Spark

Статья
01/21/2025

Если вы видите длительный этап с одной задачей, скорее всего, это признак проблемы. Хотя эта задача выполняет только один ЦП, а остальная часть кластера может быть простой. Это происходит чаще всего в следующих ситуациях:

Дорогостоящий UDF для небольших данных
Считывание из типа файла без таблицы. Это означает, что файл не может быть прочитан в нескольких частях, поэтому в конечном итоге одна большая задача. Gzip является примером типа файла, неупакованного.
Установка параметра при чтении multiLine JSON-файла или CSV-файла
Вывод схемы большого файла
Использование повторной части(1) или объединения(1)

Поделиться через

Одна задача Spark

Обратная связь

Дополнительные ресурсы