Compartilhar via


Driver do Spark sobrecarregado

Então você determinou que seu driver está sobrecarregado. O motivo mais comum para isso é que há muitas coisas simultâneas em execução no cluster. Isso pode ser muitos fluxos, consultas ou trabalhos do Spark (alguns clientes usam threads para executar muitos trabalhos do Spark simultaneamente).

Também pode ser que você esteja executando código não Spark em seu cluster que está mantendo o driver ocupado. Se você vir lacunas em sua linha do tempo causadas pela execução de código não Spark, isso significa que seus trabalhadores estão todos ociosos e provavelmente desperdiçando dinheiro durante as lacunas. Talvez isso seja intencional e inevitável, mas se você puder escrever esse código para usar o Spark, utilizará totalmente o cluster. Comece com este tutorial para saber como trabalhar com o Spark.

Se você tiver muitas coisas em execução no cluster simultaneamente, terá três opções:

  • Aumentar o tamanho do driver
  • Reduzir a simultaneidade
  • Espalhar a carga em vários clusters

O Azure Databricks recomenda que você primeiro tente dobrar o tamanho do driver e veja como isso afeta seu trabalho.