Diagnosticare i problemi di costo e prestazioni usando l'interfaccia utente di Spark
Questa guida illustra come usare l'interfaccia utente di Spark per diagnosticare i problemi di costi e prestazioni. Si tratta di una guida dettagliata ed è una procedura pratica. Invece di fornire una spiegazione di ogni pagina nell'interfaccia utente di Spark, indica cosa cercare e cosa significa. Se non si ha familiarità con i concetti relativi a driver, worker, executors, fasi e attività, potresti esaminare l'architettura Spark.
Se stai cercando un list completo di vari strumenti di ottimizzazione, utilizza la guida Ottimizzazione di Databricks. Le sezioni della guida all'ottimizzazione sono riportate in questa guida all'interfaccia utente di Spark.
Uso di questa guida
Per spostarsi nella guida, usare i collegamenti incorporati in ogni pagina per passare al passaggio successivo. La guida contiene i passaggi seguenti nell'ordine:
- Usare la sequenza temporale dei processi per identificare i problemi principali
- Esaminare la fase più lunga
- Cercare distorsioni o sversamenti
- Determinare se la fase più lunga è vincolata dall'I/O
- Cercare altre cause del runtime di fase lenta
Iniziamo get!
Come aprire l'interfaccia utente di Spark
Vai alla pagina del tuo cluster:
di calcolo
Fare clic su dell'interfaccia utente spark:
Passaggio successivo
Dopo aver aperto l'interfaccia utente di Spark, esaminare la sequenza temporale dell'evento per ottenere altre informazioni sulla pipeline o sulla query. Consulta cronologia dei lavori.