Linha do tempo dos trabalhos
A linha do tempo dos trabalhos é um ótimo ponto de partida para entender seu pipeline ou consulta. Ele fornece uma visão geral do que estava sendo executado, quanto tempo cada etapa demorou e se houve falhas ao longo do caminho.
Como abrir a linha do tempo dos trabalhos
Na interface do usuário do Spark, clique em Trabalhos e Linha do Tempo do Evento, como realçado em vermelho na captura de tela a seguir. Você verá a linha do tempo. Este exemplo mostra o driver e o executor 0 sendo adicionados:
O que procurar
As seções abaixo explicam como ler a linha do tempo do evento para descobrir a possível causa do seu problema de desempenho ou custo. Se você notar alguma dessas tendências na sua linha do tempo, o final de cada seção correspondente contém um link de um artigo que fornece diretrizes.
Falha nos trabalhos ou executores com falha
Aqui está um exemplo de um trabalho com falha e executores removidos, indicados por um status vermelho, na linha do tempo do evento.
Se você vir trabalhos ou executores com falha, consulte Trabalhos com falha ou executores removidos.
Lacunas na execução
Procure lacunas de um minuto ou mais, como neste exemplo:
Este exemplo tem várias lacunas, algumas das quais são realçadas pelas setas vermelhas. Se você vir lacunas na sua linha do tempo, elas são um minuto ou mais? Espera-se que haja pequenos intervalos enquanto o driver coordena o trabalho. Se você tiver lacunas mais longas, elas estão no meio de um pipeline? Ou esse cluster está em constante execução e, portanto, as lacunas são explicadas por pausas na atividade? Talvez você consiga determinar isso com base no horário em que sua carga de trabalho começou e terminou.
Se você vir longas lacunas inexplicáveis no meio de um pipeline, consulte Lacunas entre os trabalhos do Spark.
Trabalhos longos
A linha do tempo é dominada por um ou alguns trabalhos longos? Esses trabalhos longos seriam algo a ser investigado. No exemplo a seguir, a carga de trabalho tem um trabalho muito mais longo do que os outros. Esse é um bom alvo para investigação.
Clique no trabalho mais longo para se aprofundar. Para obter informações sobre como investigar esse estágio longo, consulte Diagnosticando um estágio longo no Spark.
Muitos pequenos trabalhos
O que estamos procurando aqui é uma linha do tempo dominada por trabalhos pequenos. Poderá ser semelhante ao seguinte:
Observe todas as pequenas linhas azuis. Todas elas são trabalhos pequenos que levam alguns segundos ou menos.
Se sua linha do tempo for principalmente trabalhos pequenos, consulte Muitos trabalhos pequenos do Spark.
Nenhuma das opções anteriores
Se a linha do tempo não se parecer com nenhuma das anteriores, a próxima etapa será identificar o trabalho mais longo. Classifique os trabalhos por duração e clique no link na descrição do trabalho mais longo:
Quando você estiver na página do trabalho mais longo, informações adicionais sobre como investigar esse estágio longo estão em Diagnosticar um estágio longo no Spark.