Identification d’une étape de lecture coûteuse dans le DAG de Spark
Accès au DAG
En partant du principe que vous examinez un travail coûteux, nous avons d’abord besoin de l’ID de la phase qui effectue la lecture. Ici, nous pouvons voir que l’ID d’étape est 194 :
Nous devons maintenant accéder au DAG SQL. Faites défiler jusqu’en haut de la page du travail, puis cliquez sur Associated SQL Query :
Vous devez maintenant voir le DAG. Si ce n’est pas le cas, faites défiler un peu et vous devriez le voir :
Dans certains cas, vous pouvez suivre le DAG et voir où proviennent les données. Dans d’autres cas, recherchez l’ID de l’index que vous avez noté :
Vous devez ensuite rechercher le nœud « Scan ». En l’occurrence, il est assez clair que nous lisons une table nommée transactions
:
Scan
Dans certains cas, vous devrez peut-être cliquer ou passer la souris sur le nœud pour obtenir l’emplacement des données que vous lisez.