Singola attività Spark
Se viene visualizzata una fase a esecuzione prolungata con una sola attività, è probabile che si verifichi un problema. Mentre questa attività è in esecuzione, viene utilizzata solo una CPU e il resto del cluster potrebbe essere inattivo. Ciò accade più frequentemente nelle seguenti situazioni:
- Funzione definita dall'utente complessa su dati di piccole dimensioni
-
Funzione finestra senza istruzione
PARTITION BY
- Lettura da un tipo di file non divisibile. Ciò significa che il file non può essere letto in più parti, quindi si finisce con un unico grande task. Gzip è un esempio di tipo di file non divisibile.
- Impostazione dell'opzione
multiLine
durante la lettura di un file JSON o CSV - Inferenza dello schema di un file di grandi dimensioni
- Uso di repartition(1) o coalesce(1)