共用方式為


使用Spark UI診斷成本和效能問題

本指南將逐步引導您使用 Spark UI 來診斷成本和效能問題。 這是一個循序漸進的指南,而且是一個實用的操作指南。 它不會只提供 Spark UI 中每個頁面的說明,而是告訴您要尋找的內容及其意義。 如果您對驅動程式、工作者、執行程式、階段和工作的概念不熟悉,建議您檢閱 Spark 架構。

如果您要尋找各種優化工具的完整 list,請使用 Databricks 優化手冊。 此 Spark UI 指南中會引用優化指南的部分章節。

使用本指南

若要流覽指南,請使用內嵌在每個頁面中的連結,以進入下一個步驟。 本指南包含下列步驟:

  1. 使用作業時程表來識別主要問題
  2. 查看最長的階段
  3. 尋找扭曲或溢出
  4. 判斷最長階段是否為 I/O 系結
  5. 尋找緩慢階段運行時間 的其他原因

讓我們開始 get!

如何開啟 Spark UI

  1. 前往叢集頁面:

    瀏覽至運算

  2. 單擊 [Spark UI] :

    導航至 SparkUI

下一步

現在您已開啟 Spark UI,接下來請檢閱事件時程表,以深入瞭解您的管線或查詢。 請參閱 工作時程表