次の方法で共有


失敗したジョブまたは削除された Executor

失敗したジョブまたは削除された Executor は次のように表示されます。

失敗したジョブ

Executor が削除される最も一般的な理由は次のとおりです。

  • 自動スケール: この場合、予期されたものであり、エラーではありません。 「自動スケールの有効化」を参照してください。
  • スポット インスタンスの損失: ご利用の VM が、クラウド プロバイダーによって回収されています。 スポット インスタンスの詳細については、こちらを参照してください。
  • Executor のメモリが不足している

失敗したジョブ

失敗したジョブが表示された場合は、それをクリックして対応するページにアクセスします。 次に、下にスクロールして、失敗したステージと失敗の原因を確認します。

失敗の理由

一般的なエラーが発生している可能性があります。 説明の中のリンクをクリックして、詳細情報を取得できるかどうかを確認します。

失敗に関する説明

このページを下にスクロールすると、各タスクが失敗した原因を確認できます。 この場合は、メモリに問題があることが明らかになります。

失敗したタスク

失敗した Executor

Executor が失敗した原因を確認するには、まず、コンピューティングのイベント ログを調べて、Executor が失敗した原因を説明するものがあるかどうかを確かめます。 たとえば、スポット インスタンスを使用中であるのに、それらがクラウド プロバイダーによって回収された場合が考えられます。

イベント ログ

Executor の損失を説明するイベントがあるかどうかを確認します。 たとえば、クラスターのサイズ変更中である、またはスポット インスタンスが失われていることを示すメッセージが表示される場合があります。

イベント ログに情報が表示されない場合は、[Spark UI] に戻って、[Executors] タブをクリックします。

[Executors]\(実行プログラム\) タブ

ここで、失敗した Executor からログを取得できます。

失敗した Executor の例

次のステップ

ここまで見てきて、最も考えられる原因はメモリの問題です。 次の手順として、メモリの問題の詳細を確認します。 「Spark のメモリの問題」を参照してください。