Поделиться через


Диагностика длительной стадии в Spark

Сначала определите самую длинную стадию задания. Прокрутите страницу задания вниз до списка этапов и упорядочьте их по длительности.

длинный этап

Сведения о стадии ввода/вывода

Чтобы просмотреть высокоуровневые данные о том, чем занимался этот этап, обратите внимание на столбцы входные, выходные, Shuffle Readи Shuffle Write.

долгий этап ввода-вывода

Столбцы означают следующее:

  • входные данные: Сколько данных на этом этапе считываются из хранилища. Это может быть чтение из форматов Delta, Parquet, CSV и т. д.
  • выходные данные: Сколько данных на этом этапе записывается в хранилище. Это может быть запись в Delta, Parquet, CSV и т. д.
  • Shuffle Read: Сколько данных перетасовки считывается на этом этапе.
  • Shuffle Write: Сколько данных перетасовываются на этом этапе.

Если вы не знакомы с тем, что такое перетасовка, сейчас подходящее время, чтобы узнать, что это означает.

Запишите эти цифры, так как вам, скорее всего, потребуется их позже.

Количество задач

Количество задач на длинном этапе может указывать на суть вашей проблемы. Вы можете определить количество задач, выполнив следующие действия.

определение количества задач

Если вы видите только одну задачу, это может быть признаком проблемы. Дополнительные сведения см. в разделе задача One Spark.

Просмотр подробной информации о стадиях

Если этап включает более одной задачи, вам следует провести дальнейшее расследование. Щелкните ссылку в описании этапа, чтобы получить дополнительные сведения о самом длинном этапе:

сведения о открытом этапе

Теперь, когда вы находитесь на странице этапа, см. Смещение и разлив.