Spark UI を使用してコストとパフォーマンスの問題を診断する
このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 それはステップ バイ ステップ ガイドであり、実用的なハウツーです。 Spark UI の各ページの内容を説明するだけでなく、何を調べるべきか、またその意味を示します。 ドライバー、worker、Executor、ステージ、タスクの概念に慣れていない場合は、Spark アーキテクチャを確認することもできます。
さまざまな最適化ツールの包括的な一覧を探している場合は、Databricks 最適化ガイドを使用してください。 最適化ガイドのセクションについては、この Spark UI ガイドを参照してください。
このガイドの使用法
ガイド内を移動するには、各ページに埋め込まれているリンクから次の手順に進んでください。 このガイドには、次の手順が順番に記載されています。
- ジョブ タイムラインを使用して主要な問題を特定する
- 最長のステージを見る
- スキューまたはスピルを探す
- 最長のステージが I/O バインドであるかどうかを判断する
- 低速ステージ ランタイムのその他の原因を探す
それでは始めましょう。
Spark UI を開く方法
クラスターのページに移動します。
[Spark UI] をクリックします。
次のステップ
Spark UI を開いたら、次にイベントタイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。