Problemi di memoria Spark
Verifica di un problema di memoria
I problemi di memoria spesso generano messaggi di errore come i seguenti:
SparkException: Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 30) (10.139.64.114 executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
Questi messaggi di errore, tuttavia, sono spesso generici e possono essere causati da altri problemi. Pertanto, se si sospetta che si verifichi un problema di memoria, è possibile verificare il problema raddoppiando la memoria per core per verificare se influisce sul problema.
Ad esempio, se si dispone di un tipo di lavoro con 4 core e 16 GB per memoria, è possibile provare a passare a un tipo di lavoro con 4 core e 32 GB di memoria. Ciò ti darà 8 GB per core rispetto ai 4 GB per core che avevi in precedenza. È il rapporto tra core e memoria che conta qui. Se ci vuole più tempo per fallire con la memoria aggiuntiva o non fallisce affatto, questo è un buon segno che sei sulla strada giusta.
Se è possibile risolvere il problema aumentando la memoria, grande! Forse questa è la soluzione. Se non risolve il problema o non è possibile sostenere il costo aggiuntivo, è consigliabile approfondire il problema.
Possibili cause
Esistono molti possibili motivi per i problemi di memoria:
- Troppe poche partizioni di mescolamento
- Grande trasmissione
- funzioni definite dall'utente
-
Window funzione senza istruzione
PARTITION BY
- asimmetria
- lo stato di streaming