Одна задача Spark
Если вы видите длительный этап с одной задачей, скорее всего, это признак проблемы. Хотя эта задача выполняет только один ЦП, а остальная часть кластера может быть простой. Это происходит чаще всего в следующих ситуациях:
- Дорогостоящий UDF для небольших данных
- Считывание из типа файла без таблицы. Это означает, что файл не может быть прочитан в нескольких частях, поэтому в конечном итоге одна большая задача. Gzip является примером типа файла, неупакованного.
- Установка параметра при чтении
multiLine
JSON-файла или CSV-файла - Вывод схемы большого файла
- Использование повторной части(1) или объединения(1)