Cómo determinar si Spark está reescribiendo datos
Primero, abra el DAG de SQL para la fase de escritura. Desplácese hacia arriba hasta la parte superior de la página del trabajo y haga clic en la consulta SQL asociada:
Ahora debería ver el DAG. Si no es así, desplácese alrededor de un poco y debería verlo:
Si va a realizar una operación de eliminación o actualización, examine la cantidad de datos que escribe el escritor en función de lo que se espera. Si ve muchos más datos escritos de lo esperado, es probable que esté reescribiendo datos:
Si va a realizar una combinación, el nodo de combinación tiene estadísticas explícitas sobre la cantidad de datos que reescribe.