Diagnostiquer les problèmes de coût et de performances à l’aide de l’interface utilisateur Spark
Ce guide vous guide tout au long de l’utilisation de l’interface utilisateur Spark pour diagnostiquer les problèmes de coût et de performances. Il s’agit d’un guide pas à pas, et c’est une procédure pratique. Au lieu de vous fournir une explication de ce que fait chaque page de l’interface utilisateur Spark, il vous indique ce qu’il faut rechercher et ce qu’il signifie. Si vous n’êtes pas familiarisé avec les concepts de pilote, de workers, d’exécuteurs, d’étapes et de tâches, vous souhaiterez peut-être passer en revue l’architecture Spark.
Si vous recherchez une liste complète de différents outils d’optimisation, utilisez le guide d’optimisation Databricks. Les sections du guide d’optimisation sont référencées dans ce guide d’interface utilisateur Spark.
Utilisation de ce guide
Pour parcourir le guide, utilisez les liens incorporés dans chaque page pour passer à l’étape suivante. Le guide contient les étapes suivantes dans l’ordre :
- Utiliser la chronologie des travaux pour identifier les problèmes majeurs
- Examiner la phase la plus longue
- Rechercher une asymétrie ou un déversement
- Déterminer si la phase la plus longue est liée aux E/S
- Rechercher d’autres causes du runtime de phase lente
Commençons !
Comment ouvrir l’interface utilisateur Spark
Accédez à la page de votre cluster :
de calcul
Cliquez sur Spark UI:
SparkUI
Étape suivante
Maintenant que vous avez ouvert l’interface utilisateur Spark, passez en revue la chronologie des événements pour en savoir plus sur votre pipeline ou requête. Consultez la Chronologie des travaux.