Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark
Este guia orienta você sobre como usar a interface do usuário do Spark para diagnosticar problemas de custo e desempenho. É um guia passo a passo e um prático manual de instruções. Em vez de apenas fornecer uma explicação do que cada página na interface do usuário do Spark faz, ela informa o que procurar e o que significa. Se você não estiver familiarizado com os conceitos de driver, trabalhadores, executores, estágios e tarefas, convém revisar a arquitetura do Spark.
Se procura uma lista abrangente de várias ferramentas de otimização, utilize o guia de otimização Databricks . As seções do guia de otimização são referenciadas neste guia da interface do usuário do Spark.
Utilização deste guia
Para navegar pelo guia, use os links incorporados em cada página para ser levado para a próxima etapa. O guia contém as seguintes etapas na ordem:
- Use a Linha do Tempo de Trabalhos para identificar os principais problemas
- Veja a etapa mais longa
- Procure inclinação ou derramamento
- Determine se o estágio mais longo está limitado por E/S
- Procure outras causas de tempo de execução de estágio lento
Vamos começar!
Como abrir a interface do usuário do Spark
Navegue até a página do cluster:
Clique na Interface do Spark :
Próximo passo
Agora que você abriu a interface do usuário do Spark, revise a linha do tempo do evento para saber mais sobre seu pipeline ou consulta. Consulte cronograma de trabalhos.