Поделиться через


Одна задача Spark

Если вы видите длительный этап с одной задачей, скорее всего, это признак проблемы. Хотя эта задача выполняет только один ЦП, а остальная часть кластера может быть простой. Это происходит чаще всего в следующих ситуациях:

  • Дорогостоящий UDF для небольших данных
  • Считывание из типа файла без таблицы. Это означает, что файл не может быть прочитан в нескольких частях, поэтому в конечном итоге одна большая задача. Gzip является примером типа файла, неупакованного.
  • Установка параметра при чтении multiLine JSON-файла или CSV-файла
  • Вывод схемы большого файла
  • Использование повторной части(1) или объединения(1)