Compartilhar via


Diagnosticar um estágio longo no Spark

Comece identificando o estágio mais longo do trabalho. Role até a parte inferior da página do trabalho para ver a lista de estágios e ordene-os por duração:

Estágio Longo

Detalhes do E/S do estágio

Para ver os dados de alto nível sobre o que esse estágio estava fazendo, examine as colunas Entrada, Saída, Leitura Aleatória e Gravação Aleatória:

E/S de Estágio Longo

As colunas significam o seguinte:

  • Entrada: quantos dados esse estágio leu do armazenamento. Isso pode ser leitura do Delta, Parquet, CSV, etc.
  • Saída: quantos dados esse estágio escreveu no armazenamento. Isso pode ser gravação do Delta, Parquet, CSV, etc.
  • Leitura Aleatória: quantos dados aleatórios são lidos nesse estágio.
  • Gravação Aleatória: quantos dados aleatórios são gravados nesse estágio.

Se você não sabe o que é aleatório, agora é um bom momento para aprender o que isso significa.

Anote esses números, pois você provavelmente precisará deles mais tarde.

Número de tarefas

O número de tarefas no estágio longo pode apontar para você na direção do seu problema. Você pode determinar o número de tarefas olhando aqui:

Determinar o número de tarefas

Se você vir uma tarefa, isso pode ser um sinal de um problema. Para obter mais informações, consulte Tarefas do One Spark.

Exibir mais detalhes do estágio

Se o estágio tiver mais de uma tarefa, você deverá investigar mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:

Abrir Informações do Estágio

Agora que você está na página do estágio, consulte Distorção e despejo.