Diagnosi di una fase lunga in Spark
Iniziare identificando la fase più lunga del processo. Scorrere fino alla fine della pagina del processo fino all'elenco delle fasi e ordinarli per durata:
Dettagli di I/O della fase
Per visualizzare i dati di alto livello sulle operazioni di questa fase, esaminare le colonne Input, Output, Shuffle Read e Shuffle Write :
Le colonne indicano quanto segue:
- Input: quantità di dati letti da questa fase dall'archiviazione. Potrebbe trattarsi di una lettura da Delta, Parquet, CSV e così via.
- Output: quantità di dati scritti in questa fase nell'archiviazione. Potrebbe trattarsi di scrivere in Delta, Parquet, CSV e così via.
- Lettura casuale: quantità di dati casuali letti in questa fase.
- Shuffle Write: quantità di dati casuali scritti in questa fase.
Se non hai familiarità con ciò che mischia, ora è un buon momento per imparare ciò che significa.
Prendere nota di questi numeri perché probabilmente saranno necessari in un secondo momento.
Numero di attività
Il numero di attività nella fase lunga può puntare nella direzione del problema. È possibile determinare il numero di attività esaminando qui:
Se viene visualizzata un'attività, questo potrebbe essere un segno di un problema. Per altre informazioni, vedere Un'attività Spark.
Visualizzare altri dettagli della fase
Se la fase ha più di un'attività, è necessario esaminare ulteriormente. Fare clic sul collegamento nella descrizione della fase per ottenere altre informazioni sulla fase più lunga:
Ora che sei nella pagina della fase, vedi asimmetria e spillo.