Диагностика длительной стадии в Spark
Сначала определите самую длинную стадию задания. Прокрутите страницу задания вниз до списка этапов и упорядочьте их по длительности.
Сведения о стадии ввода/вывода
Чтобы просмотреть высокоуровневые данные о том, чем занимался этот этап, обратите внимание на столбцы входные, выходные, Shuffle Readи Shuffle Write.
Столбцы означают следующее:
- входные данные: Сколько данных на этом этапе считываются из хранилища. Это может быть чтение из форматов Delta, Parquet, CSV и т. д.
- выходные данные: Сколько данных на этом этапе записывается в хранилище. Это может быть запись в Delta, Parquet, CSV и т. д.
- Shuffle Read: Сколько данных перетасовки считывается на этом этапе.
- Shuffle Write: Сколько данных перетасовываются на этом этапе.
Если вы не знакомы с тем, что такое перетасовка, сейчас подходящее время, чтобы узнать, что это означает.
Запишите эти цифры, так как вам, скорее всего, потребуется их позже.
Количество задач
Количество задач на длинном этапе может указывать на суть вашей проблемы. Вы можете определить количество задач, выполнив следующие действия.
Если вы видите только одну задачу, это может быть признаком проблемы. Дополнительные сведения см. в разделе задача One Spark.
Просмотр подробной информации о стадиях
Если этап включает более одной задачи, вам следует провести дальнейшее расследование. Щелкните ссылку в описании этапа, чтобы получить дополнительные сведения о самом длинном этапе:
Теперь, когда вы находитесь на странице этапа, см. Смещение и разлив.