Spark UI を使用してコストとパフォーマンスの問題を診断する
このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 これはステップ バイ ステップ ガイドであり、実用的なハウツーです。 Spark UI の各ページの内容を説明するだけでなく、検索する内容と意味を示します。 ドライバー、ワーカー、Executor、ステージ、タスクの概念に慣れていない場合は、Spark アーキテクチャを確認できます。
さまざまな最適化ツールの包括的な一覧をお探しの場合は、Databricks 最適化ガイドを使用してください。 最適化ガイドのセクションについては、この Spark UI ガイドを参照してください。
このガイドの使用
ガイド内を移動するには、各ページに埋め込まれているリンクを使用して、次の手順に進みます。 このガイドには、次の手順が順番に含まれています。
- ジョブ タイムラインを使用して、 の主要な問題を特定する
- 最長のステージ を見る
- スキューまたはスピルを探す
- 最も長いステージが入出力に依存しているかどうかを判断する
- 低速ステージ ランタイムの の他の原因を探します
それでは始めましょう。
Spark UI を開く方法
クラスターのページに移動します。
に移動する
[Spark UI] をクリックします。
に移動します
次の手順
Spark UI を開いたので、次にイベントタイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。