Identification d’une étape de lecture coûteuse dans le DAG de Spark

Article
01/31/2025

Accès au DAG

En partant du principe que vous examinez un travail coûteux, nous avons d’abord besoin de l’ID de la phase qui effectue la lecture. Ici, nous pouvons voir que l’ID d’étape est 194 :

ID d’étape

Nous devons maintenant accéder au DAG SQL. Faites défiler jusqu’en haut de la page du travail, puis cliquez sur Associated SQL Query :

ID SQL

Vous devez maintenant voir le DAG. Si ce n’est pas le cas, faites défiler un peu et vous devriez le voir :

SQL DAG

Dans certains cas, vous pouvez suivre le DAG et voir où proviennent les données. Dans d’autres cas, recherchez l’ID de l’index que vous avez noté :

étape SQL dans le DAG

Vous devez ensuite rechercher le nœud « Scan ». En l’occurrence, il est assez clair que nous lisons une table nommée transactions :

Scan Analyser dans le DAG

Dans certains cas, vous devrez peut-être cliquer ou passer la souris sur le nœud pour obtenir l’emplacement des données que vous lisez.

Partager via

Identification d’une étape de lecture coûteuse dans le DAG de Spark

Accès au DAG

Commentaires

Ressources supplémentaires