Compartir vía


Diagnóstico de una fase larga en Spark

Empiece por identificar la fase más larga del trabajo. Desplácese hasta la parte inferior de la página del trabajo hasta la list de fases y ordénelas por duración:

Etapa larga

Detalles de E/S de fase

Para ver datos de alto nivel sobre lo que hacía esta fase, examine las columns Input, Output, Shuffle Ready Shuffle Write:

E/S de fase alta de E/S de larga fase

El columns significa lo siguiente:

  • Entrada: Cantidad de datos que esta fase lee del almacenamiento. Esto podría ser lecturas desde Delta, Parquet, CSV, etc.
  • Output: cantidad de datos que esta fase ha escrito en el almacenamiento. Esto podría escribirse en Delta, Parquet, CSV, etc.
  • Shuffle Read: cantidad de datos distribuidos aleatoriamente que ha leído esta fase.
  • Shuffle Write: cantidad de datos distribuidos aleatoriamente que ha escrito esta fase.

Si no está familiarizado con lo que es la distribución aleatoria, ahora es un buen momento para aprender lo que significa.

Tome nota de estos números, ya que es probable que los necesite más adelante.

Número de tareas

El número de tareas de la fase larga puede ayudar a identificar dónde se encuentra el problema. Puede determinar el número de tareas examinando aquí:

Determinar el número de tareas

Si ve una tarea, podría ser una señal de un problema. Para obtener más información, consulte Una tarea de Spark.

Ver más detalles de la fase

Si la fase tiene más de una tarea, debe investigar más. Haga clic en el vínculo de la descripción de la fase para get más información sobre la fase más larga:

Abrir información de la fase

Ahora que está en la página de la fase, consulte Sesgo y desbordamiento.