Partager via


Diagnostic d’une étape longue dans Spark

Commencez par identifier l’étape la plus longue du travail. Faites défiler jusqu’au bas de la page du travail jusqu’à la liste des étapes et triez-les par durée :

Phase Longue

Détails E/S de l’étape

Pour afficher des données générales sur ce que faisait cette étape, examinez les colonnes Input, Output, Shuffle Readet Shuffle Write :

Longue étape d'E/S E/S de l’étape longue

Les colonnes signifient ce qui suit :

  • Entrée : Quantité de données que cette étape a lue depuis le stockage. Cela peut consister à lire des fichiers de type Delta, Parquet, CSV, etc.
  • Sortie : quantité de données écrites vers le stockage par cette étape. Cela peut être une écriture à partir de Delta, Parquet, CSV, etc.
  • Lecture aléatoire : quantité de données aléatoires lues par cette étape.
  • Écriture aléatoire : quantité de données aléatoires écrites par cette étape.

Si vous n’êtes pas familiarisé avec ce qu'est le "shuffle", c'est un bon moment pour apprendre ce que cela signifie.

Notez ces nombres, car vous en aurez probablement besoin ultérieurement.

Nombre de tâches

Le nombre de tâches de l’étape longue peut vous pointer vers la direction de votre problème. Vous pouvez déterminer le nombre de tâches en recherchant ici :

Déterminer le nombre de tâches

Si vous voyez une tâche, cela peut être un signe d’un problème. Pour plus d’informations, consultez Une tâche Spark.

Afficher plus d’informations sur les étapes

Si l’étape comporte plusieurs tâches, vous devez examiner plus en détail. Cliquez sur le lien dans la description de la phase pour obtenir plus d’informations sur la phase la plus longue :

Ouvrir les informations sur l’étape

Maintenant que vous êtes sur la page des étapes, consultez Déséquilibre et débordement.