Apache Spark アプリケーションの詳細の監視
Microsoft Fabric では、Apache Spark を使用して、ワークスペース内でノートブック、ジョブ、およびその他の種類のアプリケーションを実行できます。 この記事では、Apache Spark アプリケーションを監視する方法を説明し、ジョブの最近の状態、問題、進行状況を監視できるようにします。
Apache Spark アプリケーションを表示する
Spark ジョブ定義からすべての Apache Spark アプリケーションを表示するか、ノートブック項目のコンテキスト メニューに最近の実行オプション ->最近の実行 が表示されます。
アプリケーションの一覧で表示するアプリケーションの名前を選択し、アプリケーションの詳細ページでアプリケーションの詳細を表示できます。
Apache Spark アプリケーションの進行状況を監視する
ノートブックまたは Spark ジョブ定義の [最近の実行] ページを開くと、Apache アプリケーションの状態を表示できます。
- Success
- キュー登録
- 停止
- 取り消し済み
- Failed
ジョブ
Spark ジョブ定義またはノートブック項目のコンテキスト メニューから Apache Spark アプリケーション ジョブを開きます。[最近の実行] オプション - >[最近の実行] ->[最近の実行] ページでジョブを選択します。
Apache Spark アプリケーションの監視の詳細ページのジョブの実行一覧が [ジョブ] タブに表示され、ジョブ ID、説明、状態、ステージ、タスク、期間、処理済み、データ読み取り、データ書き込み、コード スニペットなど、各ジョブの詳細をここで表示できます。
- [ジョブ ID] をクリックすると、ジョブを展開または折りたたむことができます。
- ジョブの説明をクリックすると、Spark UI のジョブまたはステージ ページにジャンプできます。
- ジョブ コード スニペットをクリックすると、このジョブに関連するコードをチェックしてコピーできます。
リソース (プレビュー)
Executor の使用状況グラフには、Spark ジョブ Executor の割り当てとリソースの使用状況が視覚的に表示されます。 現時点で、この機能を表示するのは spark 3.4 以上のランタイム情報のみです。 [リソース (プレビュー)] を選択すると、Executor の使用状況に関する 4 種類の曲線が下書きされます。これには、[実行中]、[Idled] (アイドル状態)、[割り当て済み]、[最大インスタンス数] が含まれます。
[割り当て済み] は、Spark アプリケーションの実行中に割り当てられるコアの状況を参照します。
[最大インスタンス数] は、Spark アプリケーションに割り当てられたコアの最大数を参照します。
[実行中] は、Spark アプリケーションが実行時に使用するコアの実際の数を参照します。 Spark アプリケーションの実行中に、ある時点をクリックします。 実行中の Executor コア割り当ての詳細を、グラフの下部に表示できます。
[Idled] (アイドル状態) は、Spark アプリケーションの実行中に使用されていないコアの数です。
場合によっては、ある時点で、タスクの数が Executor コアの容量を超える可能性があります (つまり、タスクの数 > Executor コアの合計数/spark.task.cpus)。 これは、実行中のマークが付けられるタスクと、実際に Executor コアで実行されているタスクの間に時間差があるため、想定されていることです。 そのため、一部のタスクは実行中と表示されていても、コアで実行されていません。
色のアイコンを選択すると、すべてのグラフの対応するコンテンツが選択または選択解除されます。
概要パネル
[Apache Spark アプリケーションの監視] ページで、[プロパティ] ボタンをクリックして概要パネルを開いたり折りたたんだりします。 このアプリケーションの詳細については、詳細を参照 してください。
- この Spark アプリケーションの状態。
- この Spark アプリケーションの ID。
- 合計時間。
- この Spark アプリケーションの実行時間。
- この Spark アプリケーションのキューに登録された期間。
- Livy ID
- この Spark アプリケーションの送信者。
- この Spark アプリケーションの送信時間。
- Executor の数。
ログ
[ログ] タブでは、左側のパネルでさまざまなオプションが選択された Livy、 Prelaunch、 Driver ログの完全なログを表示できます。 また、キーワードを検索して必要なログ情報を直接取得し、ログの状態をフィルター処理してログを表示できます。 [ログのダウンロード] をクリックして、ログ情報をローカルにダウンロードします。
ジョブの状態がキューに登録され、クラスターの作成に失敗するなど、ログが使用できない場合があります。
ライブ ログは、アプリの送信が失敗した場合にのみ使用でき、ドライバー ログも提供されます。
データ
[データ] タブでは、クリップボードにデータリストをコピーし、データリストと単一データをダウンロードし、各データのプロパティをチェックできます。
- 左側のパネルを展開または折りたたむことができます。
- この一覧には、入力ファイルと出力ファイルの名前、読み取り形式、サイズ、ソース、パスが表示されます。
- 入力と出力のファイルは、ダウンロード、パスのコピー、およびプロパティの表示が可能です。
関連項目
[関連項目] タブでは、ノートブック、Spark ジョブ定義、パイプラインなど、Apache Spark アプリケーションに関連付けられている項目を参照して表示できます。 関連項目ページには、ノートブックの実行時にコードとパラメーター値のスナップショットが表示されます。 また、Spark ジョブ定義の送信時のすべての設定とパラメーターのスナップショットも表示されます。 Apache Spark アプリケーションがパイプラインに関連付けられている場合は、関連項目ページにも対応するパイプラインと Spark アクティビティが表示されます。
[関連アイテム] 画面では、次のことができます。
- 階層ツリー内の関連アイテムを参照して移動します。
- 各項目の [その他のアクションの一覧] 省略記号アイコンをクリックして、さまざまなアクションを実行します。
- スナップショット項目をクリックすると、そのコンテンツが表示されます。
- 階層リンクを表示して、選択した項目からルートへのパスを確認します。
診断
診断パネルでは、ユーザーのコードの分析を通じて Spark Advisor によって生成されるリアルタイムの推奨事項とエラー分析がユーザーに提供されます。 Apache Spark Advisor は、組み込みのパターンを使用して、ユーザーが一般的な間違いを回避し、エラーを分析して根本原因を特定するのに役立ちます。
関連するコンテンツ
Apache Spark アプリケーションの詳細を表示した後の次の手順は、[Notebook] セルの下に Spark ジョブの進行状況を表示することです。 以下を参照できます: