Kosten- en prestatieproblemen vaststellen met behulp van de Spark-gebruikersinterface
In deze handleiding wordt uitgelegd hoe u de Spark-gebruikersinterface gebruikt om kosten- en prestatieproblemen vast te stellen. Het is een stapsgewijze handleiding en het is een praktische procedure. In plaats van alleen een uitleg te geven over wat elke pagina in de Spark-gebruikersinterface doet, wordt uitgelegd wat u moet zoeken en wat dit betekent. Als u niet bekend bent met de concepten van stuurprogramma's, werkrollen, uitvoerders, fasen en taken, kunt u de Spark-architectuur bekijken.
Als u op zoek bent naar een uitgebreide lijst met verschillende optimalisatiehulpprogramma's, gebruikt u de Databricks Optimization-handleiding. In deze Spark UI-handleiding wordt verwezen naar secties van de optimalisatiehandleiding.
Deze handleiding gebruiken
Als u door de handleiding wilt navigeren, gebruikt u de koppelingen die zijn ingesloten op elke pagina om naar de volgende stap te gaan. De handleiding bevat de volgende stappen in volgorde:
- Gebruik de taken tijdlijn om belangrijke problemen te identificeren
- Bekijk de langste fase
- Zoeken naar scheeftrekken of overlopen
- Bepalen of de langste fase is gebonden aan I/O-
- Zoek naar andere oorzaken van trage fase-looptijd
Laten we aan de slag gaan.
De Spark-gebruikersinterface openen
Ga naar de pagina van uw cluster:
Klik op Spark-gebruikersinterface:
navigeren
Volgende stap
Nu u de Spark-gebruikersinterface hebt geopend, bekijkt u vervolgens de tijdlijn van de gebeurtenis voor meer informatie over uw pijplijn of query. Zie Jobs-tijdlijn .