Diagnosticar um estágio longo no Spark
Comece identificando o estágio mais longo do trabalho. Role até a parte inferior da página do trabalho para ver a lista de estágios e ordene-os por duração:
Detalhes do E/S do estágio
Para ver os dados de alto nível sobre o que esse estágio estava fazendo, examine as colunas Entrada, Saída, Leitura Aleatória e Gravação Aleatória:
As colunas significam o seguinte:
- Entrada: quantos dados esse estágio leu do armazenamento. Isso pode ser leitura do Delta, Parquet, CSV, etc.
- Saída: quantos dados esse estágio escreveu no armazenamento. Isso pode ser gravação do Delta, Parquet, CSV, etc.
- Leitura Aleatória: quantos dados aleatórios são lidos nesse estágio.
- Gravação Aleatória: quantos dados aleatórios são gravados nesse estágio.
Se você não sabe o que é aleatório, agora é um bom momento para aprender o que isso significa.
Anote esses números, pois você provavelmente precisará deles mais tarde.
Número de tarefas
O número de tarefas no estágio longo pode apontar para você na direção do seu problema. Você pode determinar o número de tarefas olhando aqui:
Se você vir uma tarefa, isso pode ser um sinal de um problema. Para obter mais informações, consulte Tarefas do One Spark.
Exibir mais detalhes do estágio
Se o estágio tiver mais de uma tarefa, você deverá investigar mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:
Agora que você está na página do estágio, consulte Distorção e despejo.