Diagnostizieren von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche
Dieses Handbuch führt Sie durch die Verwendung der Spark-Benutzeroberfläche zum Diagnostizieren von Kosten- und Leistungsproblemen. Es ist eine schrittweise Anleitung, und es ist eine praktische Anleitung. Anstatt Ihnen nur zu erklären, was jede Seite in der Spark-Benutzeroberfläche macht, erfahren Sie, worauf Sie achten müssen und was das bedeutet. Wenn Sie mit den Konzepten von Treibern, Mitarbeitern, Ausführenden, Phasen und Aufgaben nicht vertraut sind, sollten Sie die Spark-Architektur überprüfen.
Wenn Sie nach einer umfassenden Liste verschiedener Optimierungstools suchen, verwenden Sie den Databricks Optimization Guide. Abschnitte des Optimierungshandbuchs werden in diesem Spark UI-Handbuch referenziert.
Verwenden dieses Handbuchs
Um durch die Anleitung zu navigieren, verwenden Sie die in jeder Seite eingebetteten Links, um zum nächsten Schritt zu gelangen. Die Anleitung enthält die folgenden Schritte in der Reihenfolge:
- Verwenden der Zeitachse „Aufträge“ zum Identifizieren wichtiger Probleme
- Sehen Sie sich die längste Phase an
- Suche nach Schiefe oder Überlauf
- Ermitteln, ob die längste Phase E/A-gebunden ist
- Suchen nach anderen Ursachen für langsame Phasenlaufzeit
Fangen wir an!
So öffnen Sie die Spark-Benutzeroberfläche
Navigieren Sie zur Seite Ihres Clusters:
Klicken Sie auf Spark UI:
Nächster Schritt
Nachdem Sie die Spark-Benutzeroberfläche geöffnet haben, überprüfen Sie als Nächstes die Ereigniszeitachse, um mehr über Ihre Pipeline oder Abfrage zu erfahren. Weitere Informationen finden Sie in der Zeitachse „Aufträge“.