失敗したジョブまたは削除された Executor
失敗したジョブまたは削除された Executor は次のように表示されます。
Executor が削除される最も一般的な理由は次のとおりです。
- 自動スケール: この場合、予期されたものであり、エラーではありません。 「自動スケールの有効化」を参照してください。
- スポット インスタンスの損失: ご利用の VM が、クラウド プロバイダーによって回収されています。 スポット インスタンスの詳細については、こちらを参照してください。
- Executor のメモリが不足している
失敗したジョブ
失敗したジョブが表示された場合は、それをクリックして対応するページにアクセスします。 次に、下にスクロールして、失敗したステージと失敗の原因を確認します。
一般的なエラーが発生している可能性があります。 説明の中のリンクをクリックして、詳細情報を取得できるかどうかを確認します。
このページを下にスクロールすると、各タスクが失敗した原因を確認できます。 この場合は、メモリに問題があることが明らかになります。
失敗した Executor
Executor が失敗した原因を確認するには、まず、コンピューティングのイベント ログを調べて、Executor が失敗した原因を説明するものがあるかどうかを確かめます。 たとえば、スポット インスタンスを使用中であるのに、それらがクラウド プロバイダーによって回収された場合が考えられます。
Executor の損失を説明するイベントがあるかどうかを確認します。 たとえば、クラスターのサイズ変更中である、またはスポット インスタンスが失われていることを示すメッセージが表示される場合があります。
- スポット インスタンスを使用している場合は、「スポット インスタンスの損失」を参照してください。
- コンピューティングのサイズ変更が自動スケールで行われた場合、それは予期されるものであり、エラーではありません。 クラスターのサイズ変更の詳細説明に関するページを参照してください。
イベント ログに情報が表示されない場合は、[Spark UI] に戻って、[Executors] タブをクリックします。
ここで、失敗した Executor からログを取得できます。
次のステップ
ここまで見てきて、最も考えられる原因はメモリの問題です。 次の手順として、メモリの問題の詳細を確認します。 「Spark のメモリの問題」を参照してください。