Sesgo y volcado
Volcado
Lo primero que hay que buscar en una fase de larga duración es si hay volcado.
En la parte superior de la página de la fase verá los detalles, que pueden incluir estadísticas sobre el volcado:
El volcado es lo que sucede cuando Spark tiene poca memoria. Comienza a mover datos de la memoria al disco y esto puede ser bastante costoso. Es más común durante el orden aleatorio de datos.
Si no ve ninguna estadística para el volcado, significa que la fase no tiene ningún volcado. Si la fase tiene algún volcado, consulte esta guía sobre cómo tratar con el volcado causado por orden aleatorio.
Distorsión
Lo siguiente que queremos examinar es si hay sesgo. El sesgo es cuando una o solo algunas tareas tardan mucho más que el resto. Esto da como resultado un uso deficiente del clúster y trabajos más largos.
Desplácese hacia abajo hasta las Métricas de resumen. Lo principal que estamos buscando es que la duración máxima sea mucho mayor que la duración del percentil 75. En la captura de pantalla siguiente se muestra una fase correcta, donde el percentil 75 y la máxima son iguales:
Si la duración máxima es del 50 % más que el percentil 75, es posible que esté sufriendo de sesgo.
Si ve sesgo, obtenga información sobre los pasos de corrección aquí.
Sin sesgos ni volcado
Si no ve sesgo ni volcado, vuelva a la página del trabajo para obtener información general sobre lo que está ocurriendo. Desplácese hacia arriba hasta la parte superior de la página y haga clic en Id. de trabajo asociados:
Si la fase no tiene volcado o sesgo, consulte E/S elevada de la fase de Spark para conocer los pasos siguientes.