Distorção e despejo
Despejo
A primeira coisa a ser procurada em um estágio de longa duração é se há despejo.
Na parte superior da página do estágio, você verá os detalhes que podem incluir estatísticas sobre o despejo:
Despejo é o que acontece quando o Spark é executado com pouca memória. Ele começa a mover os dados da memória para o disco, e isso pode ser bem caro. É mais comum durante o embaralhamento dos dados.
Se você não vir as estatísticas do despejo, isso significa que o estágio não possui despejos. Se o estágio tiver despejos, consulte este guia sobre como lidar com o despejo causado pelo embaralhamento.
Distorção
A próxima coisa que queremos examinar é se há distorção. Distorção é quando uma ou apenas algumas tarefas demoram muito mais do que o restante. Isso resulta no uso inadequado do cluster e de trabalhos mais longos.
Role para baixo até as Métricas de Resumo. A principal coisa que estamos procurando é que a duração Máxima seja muito maior do que a duração do 75º percentil. A captura de tela abaixo mostra um estágio íntegro, em que o 75º percentil e Máximo são os mesmos:
Se a duração máxima for 50% maior do que o 75º percentil, você pode estar sofrendo de distorção.
Se você observar uma distorção, saiba mais sobre as etapas de correção de distorção aqui.
Sem distorção ou despejo
Se você não vir a distorção ou despejo, volte para a página de trabalho para obter uma visão geral do que está acontecendo. Role até a parte superior da página e clique IDs de Trabalho Associadas:
Se o estágio não tiver despejo ou distorção, consulte E/S alta do estágio Spark para as próximas etapas.