次の方法で共有


職務のタイムライン

ジョブのタイムラインは、パイプラインまたはクエリを理解するための優れた出発点です。 実行されていた内容、各ステップの所要時間、途中でエラーが発生したかどうかの概要が示されます。

ジョブのタイムラインを開く方法

Spark UI で、次のスクリーンショットで赤で強調表示されている ジョブ および イベントタイムライン をクリックします。 タイムラインが表示されます。 この例では、ドライバーと Executor 0 が追加されていることを示します。

ジョブのタイムライン

注目すべきポイント

以下のセクションでは、イベントタイムラインを読んで、パフォーマンスまたはコストの問題の考えられる原因を見つけ出す方法について説明します。 タイムラインでこれらの傾向に気付いた場合、対応する各セクションの末尾には、ガイダンスを提供する記事へのリンクが含まれています。

失敗したジョブまたは失敗した Executor

失敗したジョブと削除された Executor の例を次に示します。イベント タイムラインでは、赤色の状態で示されます。

失敗中のジョブ

失敗したジョブまたは失敗した Executor が表示される場合は、「失敗したジョブまたは削除された Executor」を参照してください。

実行のギャップ

次の例のように、1 分以上のギャップを探します。

ジョブのギャップ

この例にはいくつかのギャップがあり、その一部は赤い矢印で強調表示されています。 タイムラインにギャップが表示される場合、1 分以上ですか? ドライバーが作業を調整するため、短い中断が予想されます。 長いギャップがある場合、それはパイプラインの途中にありますか? または、このクラスターは常に実行されているため、アクティビティの一時停止によってギャップが説明されていますか? これは、ワークロードが開始および終了した時刻に基づいて判断できる場合があります。

パイプラインの途中に長い原因不明のギャップがある場合は、「Spark ジョブ 間のギャップ」を参照してください。

長時間の作業

タイムラインは 1 つまたはいくつかの長いジョブによって支配されていますか? これらの長いジョブは、調査する必要があります。 次の例では、ワークロードには、他のジョブよりもはるかに長い 1 つのジョブがあります。 これは調査の適切なターゲットです。

長いジョブ

調査すべき最も長いジョブをクリックします。 この長いステージの調査については、「Sparkでの長いステージの診断」を参照してください。

多数の小さな仕事

私たちがここで求めているのは、小さな仕事に支配されたタイムラインです。 次のようになります。

小さな仕事

すべての小さな青い線に注目してください。 これらはそれぞれ、数秒以下の小さな仕事です。

タイムラインがほとんど小さいジョブの場合は、「多数の小さな Spark ジョブ」を参照してください。

上記のいずれも当てはまらない

タイムラインが上記のように表示されない場合、次の手順は最長のジョブを識別することです。 ジョブを期間別に並べ替え、最長ジョブの説明のリンクをクリックします。

最長ジョブを識別する

最も長いジョブのページに入ると、この長いステージの調査に関する追加情報は、「Spark での長いステージの診断」にあります。