Identificación de una lectura costosa en el DAG de Spark
Acceso al DAG
Suponiendo que esté viendo un trabajo costoso, primero necesitamos el identificador de la fase que está realizando la lectura. Aquí podemos ver que el id. de fase es 194:
Ahora tenemos que ir al DAG de SQL. Desplácese hacia arriba hasta la parte superior de la página del trabajo y haga clic en la consulta SQL asociada:
Ahora debería ver el DAG. Si no es así, desplácese alrededor de un poco y debería verlo:
En algunos casos, puede seguir el DAG y ver de dónde proceden los datos. En otros casos, busque el identificador de fase que anotó:
A continuación, debe buscar el nodo "Digitalizar". En este caso, es bastante sencillo decir que estamos leyendo una tabla denominada transactions
:
En algunos casos, es posible que tenga que hacer clic o revertir el nodo para obtener la ubicación de los datos que está leyendo.