Diagnostica di una fase lunga in Spark
Iniziare identificando la fase più lunga del processo. Scorrere fino in fondo alla pagina dell'offerta di lavoro fino all'elenco delle fasi e ordinarle per durata.
fase lunga
Dettagli di I/O della fase
Per visualizzare i dati di alto livello sulle operazioni di questa fase, esaminare le colonne Input, Output, Shuffle Read, e Shuffle Write.
Le colonne indicano quanto segue:
- Input: Quantità di dati letti dalla memoria. Potrebbe trattarsi di una lettura da file come Delta, Parquet, CSV, ecc.
- Output: Quantità di dati che questa fase ha scritto nella memoria. Questo potrebbe significare scrivere in Delta, Parquet, CSV e così via.
- Dati di shuffle letti: Quantità di dati di shuffle letti in questa fase.
- Scrittura casuale: Quantità di dati casuali scritti in questa fase.
Se non conosci che cosa sia lo shuffle, ora è un buon momento per scoprire di cosa si tratta.
Prendere nota di questi numeri perché probabilmente saranno necessari in un secondo momento.
Numero di attività
Il numero di attività nella fase lunga può indicare la direzione del tuo problema. È possibile determinare il numero di attività esaminando qui:
Se viene visualizzata un'attività, questo potrebbe essere un segno di un problema. Per ulteriori informazioni, vedere l'attività One Spark .
Visualizzare altri dettagli della fase
Se la fase include più di un'attività, è necessario esaminare la questione in modo più approfondito. Fare clic sul collegamento nella descrizione della fase per ottenere altre informazioni sulla fase più lunga:
Informazioni sul Palco Aperto
Ora che sei nella pagina della fase, vedi Skew e spill.