Compartilhar via


Jobs com falha ou executores removidos

Então você está vendo trabalhos com falha ou executores removidos:

Trabalhos com falha

Os motivos mais comuns para a remoção de executores são:

  • Escalonamento automático: nesse caso é esperado e não um erro. Veja Habilitar escalonamento automático.
  • Perdas pontuais de instâncias: o provedor de nuvem está recuperando suas VMs. Você pode aprender mais sobre instâncias spot aqui.
  • Executores ficando sem memória

Trabalhos com falha

Se você detectar algum trabalho com falha, clique nele para acessar as páginas dele. Em seguida, role para baixo para ver o estágio com falha e o motivo da falha:

Motivo da Falha

Você pode receber um erro genérico. Clique no link na descrição para ver se você pode obter mais informações:

Falha na Descrição

Se você rolar para baixo nessa página, poderá ver por que cada tarefa falhou. Nesse caso, está ficando claro que há um problema de memória:

Tarefas com Falha

Executores com falha

Para descobrir por que seus executores estão falhando, primeiro você deve verificar o Log de eventos do cálculo para ver se há alguma explicação para o motivo da falha dos executores. Por exemplo, é possível que você esteja usando instâncias spot e o provedor de nuvem as esteja aceitando de volta.

Log de Eventos

Veja se há algum evento que explique a perda de executores. Por exemplo, você poderá ver mensagens indicando que o cluster está sendo redimensionado ou que as instâncias spot estão sendo perdidas.

Se você não vir nenhuma informação no log de eventos, navegue de volta para a Spark UI e clique na guia Executores:

Guia Executores

Aqui você pode obter os logs dos executores com falha:

Exemplo de executores com falha

Próxima etapa

Se você chegou até aqui, a explicação mais provável é um problema de memória. A próxima etapa é investigar os problemas de memória. Veja Problemas de memória Spark.