Jobs com falha ou executores removidos
Então você está vendo trabalhos com falha ou executores removidos:
Os motivos mais comuns para a remoção de executores são:
- Escalonamento automático: nesse caso é esperado e não um erro. Veja Habilitar escalonamento automático.
- Perdas pontuais de instâncias: o provedor de nuvem está recuperando suas VMs. Você pode aprender mais sobre instâncias spot aqui.
- Executores ficando sem memória
Trabalhos com falha
Se você detectar algum trabalho com falha, clique nele para acessar as páginas dele. Em seguida, role para baixo para ver o estágio com falha e o motivo da falha:
Você pode receber um erro genérico. Clique no link na descrição para ver se você pode obter mais informações:
Se você rolar para baixo nessa página, poderá ver por que cada tarefa falhou. Nesse caso, está ficando claro que há um problema de memória:
Executores com falha
Para descobrir por que seus executores estão falhando, primeiro você deve verificar o Log de eventos do cálculo para ver se há alguma explicação para o motivo da falha dos executores. Por exemplo, é possível que você esteja usando instâncias spot e o provedor de nuvem as esteja aceitando de volta.
Veja se há algum evento que explique a perda de executores. Por exemplo, você poderá ver mensagens indicando que o cluster está sendo redimensionado ou que as instâncias spot estão sendo perdidas.
- Se você estiver usando instâncias spot, veja Perdendo instâncias spot.
- Se sua computação foi redimensionada com escalonamento automático, isso é esperado e não um erro. Veja Saiba mais sobre redimensionamento de cluster.
Se você não vir nenhuma informação no log de eventos, navegue de volta para a Spark UI e clique na guia Executores:
Aqui você pode obter os logs dos executores com falha:
Próxima etapa
Se você chegou até aqui, a explicação mais provável é um problema de memória. A próxima etapa é investigar os problemas de memória. Veja Problemas de memória Spark.