Identification d’une lecture coûteuse dans le DAG de Spark
Accès au DAG
En partant du principe que vous examinez un travail coûteux, nous avons d’abord besoin de l’ID de la phase qui effectue la lecture. Ici, nous pouvons voir que l’ID de phase est 194 :
Nous devons maintenant accéder au DAG SQL. Faites défiler jusqu’en haut de la page du travail, puis cliquez sur Associated SQL Query :
Vous devez maintenant voir le DAG. Si ce n’est pas le cas, faites défiler un peu et vous devriez le voir :
Dans certains cas, vous pouvez suivre le DAG et voir la provenance des données. Dans d’autres cas, recherchez l’ID de l’index que vous avez noté :
Vous devez ensuite rechercher le nœud « Scan ». En l’occurrence, il est assez clair que nous lisons une table nommée transactions
:
Dans certains cas, vous devrez peut-être cliquer sur le nœud ou passer le curseur de la souris dessus afin d’obtenir l’emplacement des données que vous lisez.