次の方法で共有


Spark UI を使用してコストとパフォーマンスの問題を診断する

このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 これはステップ バイ ステップ ガイドであり、実用的なハウツーです。 Spark UI の各ページの内容を説明するだけでなく、検索する内容と意味を示します。 ドライバー、ワーカー、Executor、ステージ、タスクの概念に慣れていない場合は、Spark アーキテクチャを確認できます。

さまざまな最適化ツールの包括的な一覧をお探しの場合は、Databricks 最適化ガイドを使用してください。 最適化ガイドのセクションについては、この Spark UI ガイドを参照してください。

このガイドの使用

ガイド内を移動するには、各ページに埋め込まれているリンクを使用して、次の手順に進みます。 このガイドには、次の手順が順番に含まれています。

  1. ジョブ タイムラインを使用して、 の主要な問題を特定する
  2. 最長のステージ を見る
  3. スキューまたはスピルを探す
  4. 最も長いステージが入出力に依存しているかどうかを判断する
  5. 低速ステージ ランタイムの の他の原因を探します

それでは始めましょう。

Spark UI を開く方法

  1. クラスターのページに移動します。

    [Compute] に移動する に移動する

  2. [Spark UI] をクリックします。

    SparkUI に移動します

次の手順

Spark UI を開いたので、次にイベントタイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。