Сбой заданий или исполнителей удалены
Поэтому вы видите неудачные задания или удалили исполнителей:
Наиболее распространенными причинами удаления исполнителей являются:
- Автомасштабирование. В этом случае ожидается, а не ошибка. См. раздел "Включить автомасштабирование".
- Потери точечных экземпляров: поставщик облачных служб освобождает виртуальные машины. Дополнительные сведения об экземплярах spot см. здесь.
- Исполнителям не хватает памяти
Неудачные задания
Если вы видите какие-либо неуспешные задания, щелкните на них, чтобы get перейти на их страницы. Затем прокрутите вниз, чтобы просмотреть этап сбоя и причину сбоя:
Вы можете сделать универсальную ошибку get. Щелкните ссылку в описании, чтобы узнать, можно ли get дополнительные сведения:
Если прокрутите страницу вниз, вы сможете увидеть, почему каждая задача завершилась сбоем. В этом случае становится ясно, что возникла проблема с памятью:
Неисправные исполнители
Чтобы узнать, почему не удается выполнить выполнение, сначала необходимо проверить журнал событий вычислений, чтобы узнать, есть ли какие-либо объяснения причин сбоя исполнителя. Например, возможно, вы используете точечные экземпляры, и поставщик облачных служб возвращает их обратно.
Узнайте, есть ли какие-либо события, объясняющие потерю исполнителей. Например, могут отображаться сообщения, указывающие на то, что кластер изменяет размер или точечные экземпляры теряются.
- Если вы используете точечные экземпляры, см. раздел "Потеря точечных экземпляров".
- Если вычислительные ресурсы были изменены с помощью автомасштабирования, ожидается, а не ошибка. Дополнительные сведения об изменении размера кластера см. в статье .
Если в журнале событий нет сведений, вернитесь к пользовательскому интерфейсу Spark и перейдите на вкладку "Исполнителя".
Здесь можно get журналы от неудачных исполнителей:
Следующий шаг
Если вы получили это далеко, самое подобное объяснение является проблемой памяти. Следующим шагом является анализ проблем с памятью. См . статью о проблемах с памятью Spark.