Partager via


Diagnostiquer les problèmes de coût et de performances à l’aide de l’interface utilisateur Spark

Ce guide vous guide tout au long de l’utilisation de l’interface utilisateur Spark pour diagnostiquer les problèmes de coût et de performances. Il s’agit d’un guide pas à pas, et c’est une procédure pratique. Au lieu de vous fournir une explication de ce que fait chaque page de l’interface utilisateur Spark, il vous indique ce qu’il faut rechercher et ce qu’il signifie. Si vous n’êtes pas familiarisé avec les concepts de pilote, de workers, d’exécuteurs, d’étapes et de tâches, vous souhaiterez peut-être passer en revue l’architecture Spark.

Si vous recherchez une liste complète de différents outils d’optimisation, utilisez le guide d’optimisation Databricks. Les sections du guide d’optimisation sont référencées dans ce guide d’interface utilisateur Spark.

Utilisation de ce guide

Pour parcourir le guide, utilisez les liens incorporés dans chaque page pour passer à l’étape suivante. Le guide contient les étapes suivantes dans l’ordre :

  1. Utiliser la chronologie des travaux pour identifier les problèmes majeurs
  2. Examiner la phase la plus longue
  3. Rechercher une asymétrie ou un déversement
  4. Déterminer si la phase la plus longue est liée aux E/S
  5. Rechercher d’autres causes du runtime de phase lente

Commençons !

Comment ouvrir l’interface utilisateur Spark

  1. Accédez à la page de votre cluster :

    Accéder à Compute de calcul

  2. Cliquez sur Spark UI:

    Accéder à SparkUI SparkUI

Étape suivante

Maintenant que vous avez ouvert l’interface utilisateur Spark, passez en revue la chronologie des événements pour en savoir plus sur votre pipeline ou requête. Consultez la Chronologie des travaux.