Distorsione e tracimazione
Versamento
La prima cosa da cercare in una fase a esecuzione prolungata è se è presente spill.
Nella parte superiore della pagina della fase verranno visualizzati i dettagli, che possono includere statistiche sulla perdita:
Spill è ciò che accade quando Spark viene eseguito con memoria insufficiente. Inizia a spostare i dati dalla memoria al disco e questo può essere piuttosto costoso. È più comune durante il riordino dei dati.
Se non vengono visualizzate statistiche per l'evento di spill, significa che lo stadio non ha alcun spill. Se la fase presenta qualche perdita, vedere questa guida su come gestire la perdita causata da shuffle.
Inclinazione
La cosa successiva da esaminare è se è presente asimmetria. L'asimmetria è quando una o poche attività richiedono molto più tempo del resto. Questo comporta un utilizzo inefficace del cluster e lavori più lunghi.
Scorrere verso il basso fino all'
delle statistiche di sfasamento
Se la durata massima supera di 50% il 75° percentile, potresti avere un problema di asimmetria.
Se noti un'asimmetria, scopri i passaggi per correggerla qui.
Nessuna asimmetria o spilla
Se non visualizzi asimmetria o overflow, torna alla pagina del processo per avere una panoramica di cosa sta succedendo. Scorrere verso l'inizio della pagina e fare clic su ID lavoro associati:
Se la fase non presenta overflow o asimmetria, vedere il punto Fase Spark con elevato I/O per i passaggi successivi.