Diagnostica di una fase lunga in Spark

Articolo
01/23/2025

Iniziare identificando la fase più lunga del processo. Scorrere fino in fondo alla pagina dell'offerta di lavoro fino all'elenco delle fasi e ordinarle per durata.

fase lunga

Dettagli di I/O della fase

Per visualizzare i dati di alto livello sulle operazioni di questa fase, esaminare le colonne Input, Output, Shuffle Read, e Shuffle Write.

I/O di lunga fase

Le colonne indicano quanto segue:

Input: Quantità di dati letti dalla memoria. Potrebbe trattarsi di una lettura da file come Delta, Parquet, CSV, ecc.
Output: Quantità di dati che questa fase ha scritto nella memoria. Questo potrebbe significare scrivere in Delta, Parquet, CSV e così via.
Dati di shuffle letti: Quantità di dati di shuffle letti in questa fase.
Scrittura casuale: Quantità di dati casuali scritti in questa fase.

Se non conosci che cosa sia lo shuffle, ora è un buon momento per scoprire di cosa si tratta.

Prendere nota di questi numeri perché probabilmente saranno necessari in un secondo momento.

Numero di attività

Il numero di attività nella fase lunga può indicare la direzione del tuo problema. È possibile determinare il numero di attività esaminando qui:

Determinare il numero di attività

Se viene visualizzata un'attività, questo potrebbe essere un segno di un problema. Per ulteriori informazioni, vedere l'attività One Spark .

Visualizzare altri dettagli della fase

Se la fase include più di un'attività, è necessario esaminare la questione in modo più approfondito. Fare clic sul collegamento nella descrizione della fase per ottenere altre informazioni sulla fase più lunga:

Informazioni sul Palco Aperto

Ora che sei nella pagina della fase, vedi Skew e spill.

Condividi tramite

Diagnostica di una fase lunga in Spark

Dettagli di I/O della fase

Numero di attività

Visualizzare altri dettagli della fase

Commenti e suggerimenti

Risorse aggiuntive