Partager via


Pilote Spark surchargé

Vous avez déterminé que votre pilote est surchargé. La raison la plus courante est que trop d’éléments concurrents s’exécutent sur le cluster. Il peut s’agit de flux, requêtes ou travaux Spark trop nombreux (certains clients utilisent des threads pour exécuter beaucoup de travaux Spark de manière simultanée).

La raison peut également être que vous exécutez du code non-Spark sur votre cluster qui maintient le pilote occupé. Si vous observez des écarts dans votre chronologie causés par l’exécution de code non-Spark, cela signifie que vos Workers sont tous inactifs, avec comme conséquence probable un gaspillage d’argent pendant les écarts. Peut-être est-ce intentionnel et inévitable, mais si vous pouvez écrire ce code de façon à utiliser Spark, vous utilisez entièrement le cluster. Commencez par ce tutoriel pour apprendre à utiliser Spark.

Si vous avez trop d’éléments s’exécutant de manière simultanée sur le cluster, vous disposez de trois options :

  • Augmenter la taille de votre pilote
  • Diminuer la concurrence
  • Étendre la charge sur plusieurs clusters

Azure Databricks vous recommande d’essayer en premier de double la taille du pilote et de voir l’effet sur votre travail.