Comment déterminer si Spark réécrit des données
Tout d’abord, ouvrez le DAG SQL pour la phase d’écriture. Faites défiler jusqu’en haut de la page du travail, puis cliquez sur Associated SQL Query :
Vous devez maintenant voir le DAG. Si ce n’est pas le cas, faites défiler un peu et vous devriez le voir :
Si vous effectuez une opération de suppression ou de mise à jour, examinez la quantité de données écrites par l’auteur par rapport à ce que vous attendez. Si vous voyez beaucoup plus de données écrites que prévu, il est probable que vous réécriviez des données :
Si vous effectuez une fusion, le nœud de fusion a des statistiques explicites sur la quantité de données qu’il réécrit.