コンピューティングメトリックの表示

[アーティクル]
11/20/2024

この記事では、Azure Databricks UI のネイティブコンピューティングメトリックツールを使用して、主要なハードウェアと Spark のメトリックを収集する方法について説明します。メトリック UI は多目的に、そしてジョブのコンピューティングに利用できます。

Note

ノートブックとジョブのサーバーレスコンピューティングでは、メトリック UI の代わりにクエリ分析情報が使用されます。サーバーレスコンピューティングメトリックの詳細については、「クエリの分析情報を表示する」を参照してください。

メトリックは、通常 1 分以内の遅延で、ほぼリアルタイムで利用可能です。メトリックは、顧客のストレージではなく、Azure Databricks が管理するストレージに保存されます。

これらの新しいメトリックは Ganglia とどう違いますか?

新しいコンピューティングメトリック UI では、Spark の使用量や内部 Databricks プロセスなど、クラスターのリソース使用量をより包括的に把握できます。対照的に、Ganglia UI では Spark コンテナーの消費量のみが測定されます。この違いにより、2 つのインターフェイス間のメトリック values が不一致になる可能性があります。

コンピューティングメトリック UI へのアクセス

コンピューティングメトリック UI を表示します。

サイドバーで、[コンピューティング]をクリックします。
メトリックを表示させたいコンピューティングをクイックします。
[メトリック] タブをクリックします。

直近 24 時間のメトリックを表示する

ハードウェアメトリックは既定で表示されます。 Spark メトリックを表示するには、[ハードウェア] というラベルの付いたドロップダウンメニューをクリックし、selectSparkを選択します。インスタンスが GPU 対応の場合は、GPU をすることもできます。

期間でメトリックをフィルター処理する

日付の選択フィルターを使用して時間の範囲を選択することで、履歴メトリックを表示できます。メトリックは 1 分ごとに収集されるため、過去 30 日間の任意の範囲の日、時間、または分でフィルター処理できます。予定表アイコンをクリックして定義済みのデータ範囲から select するか、テキストボックス内をクリックしてカスタム valuesを定義します。

Note

グラフに表示される時間間隔は、表示している時間の長さに基づいて調整されます。ほとんどのメトリックは、現在表示している時間間隔に基づく平均です。

[Refresh] ボタンをクリックして、最新のメトリックを get することもできます。

ノードレベルでメトリックを表示する

個々のノードのメトリックを表示するには、[コンピューティング] ドロップダウンメニューをクリックし、メトリックを表示するノードを選択します。 GPU メトリックは、個々のノードレベルでのみ使用できます。 Spark メトリックは、個々のノードでは使用できません。

Note

特定のノードを select しない場合、結果はクラスター内のすべてのノード (ドライバーを含む) で平均化されます。

ハードウェアメトリックグラフ

コンピューティングメトリック UI では、次のハードウェアメトリックグラフを表示できます。

サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
CPU 使用率: 合計 CPU 秒コストに基づいて、各モードで CPU が費やした時間の割合。メトリックは、グラフに表示される時間間隔に基づいて平均化されます。次のモードが追跡されます。
- guest: VM を実行している場合、それらの VM が使用する CPU
- iowait: I/O の待機に費やされた時間
- idle: CPU が何も行っていなかった時間
- irq: 割り込み要求に費やされた時間
- nice: 正の nice 値を持つ (つまり他のタスクより優先度が低い) プロセスによって使用された時間
- softirq: ソフトウェア割り込み要求に費やされた時間
- steal: 自分が VM の場合、他の VM によって "盗まれた" 自分の CPU の時間
- system: カーネルで費やされた時間
- user: ユーザーランドで費やされた時間
メモリ使用率: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、モードごとの合計メモリ使用量。次の使用状況の種類が追跡されます。
- used: 使用メモリ (コンピューティングで実行されているバックグラウンドプロセスによって使用されるメモリを含む)
- free: 未使用メモリ
- buffer: カーネルバッファーによって使用されるメモリ
- cached: OS レベルのファイルシステムキャッシュによって使用されるメモリ
メモリスワップ使用率: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、モードごとの合計メモリスワップ使用量。
ファイルシステムの空き領域: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、マウントポイントごとの合計ファイルシステム使用量。
ネットワーク経由での受信量: グラフに表示される時間間隔に基づいて平均化された、デバイスごとのネットワーク経由で受信されたバイト数。
ネットワーク経由での送信量: グラフに表示される時間間隔に基づいて平均化された、デバイスごとのネットワーク経由で送信されたバイト数。
アクティブノードの数: 指定されたコンピューティングのすべての timestamp にあるアクティブノードの数が表示されます。

Spark メトリックグラフ

コンピューティングメトリック UI では、次の Spark メトリックグラフを表示できます。

サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
アクティブなタスクの数: グラフに表示される時間間隔に基づいて平均化された、特定の時点で実行されていたタスクの合計数。
失敗したタスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor で失敗したタスクの合計数。
完了したタスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor で完了したタスクの合計数。
タスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor でのすべてのタスク (実行中、失敗、完了) の合計数。
合計シャッフル読み取り量: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、シャッフル読み取りデータの合計サイズ。 Shuffle read は、ステージの先頭にあるすべての Executor でシリアル化された読み取りデータの合計を意味します。
合計シャッフル書き込み量: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、シャッフル書き込みデータの合計サイズ。 Shuffle Write は、送信前 (通常はステージの最後) のすべての Executor で書き込まれたシリアル化されたデータの合計です。
タスクの合計期間: 秒単位で測定され、グラフに表示される時間間隔に基づいて平均化された、JVM が Executor でタスクの実行に費やした合計経過時間。

GPU メトリックグラフ

Note

GPU メトリックは、Databricks Runtime ML 13.3 以降でのみ使用できます。

コンピューティングメトリック UI では、次の GPU メトリックグラフを表示できます。

サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
GPU ごとのデコーダー使用率: グラフに表示される時間間隔に基づいて平均化された、GPU デコーダーの使用率。
GPUごとのエンコーダー使用率：グラフに表示される時間間隔に基づいて平均化された、GPU エンコーダーの使用率。
GPU ごとのフレームバッファーメモリ使用バイト数: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、フレームバッファーのメモリ使用率。
GPU ごとのメモリ使用率：グラフに表示される時間間隔に基づいて平均化された、GPU メモリの使用率。
GPU ごとの使用率: グラフに表示される時間間隔に基づいて平均化された、GPU の使用率。

トラブルシューティング

一定期間のメトリックが不完全または不足している場合は、次のいずれかの問題が発生する可能性があります。

メトリックのクエリと格納を行う Databricks Service に障害が発生しました。
お客様側のネットワークの問題。
コンピューティングは異常な状態であるか、または異常な状態でした。

次の方法で共有

コンピューティングメトリックの表示

これらの新しいメトリックは Ganglia とどう違いますか?

コンピューティングメトリック UI へのアクセス

期間でメトリックをフィルター処理する

ノードレベルでメトリックを表示する

ハードウェアメトリックグラフ

Spark メトリックグラフ

GPU メトリックグラフ

トラブルシューティング

フィードバック

その他のリソース

次の方法で共有

コンピューティング メトリックの表示

これらの新しいメトリックは Ganglia とどう違いますか?

コンピューティング メトリック UI へのアクセス

期間でメトリックをフィルター処理する

ノード レベルでメトリックを表示する

ハードウェア メトリック グラフ

Spark メトリック グラフ

GPU メトリック グラフ

トラブルシューティング

フィードバック

その他のリソース

コンピューティングメトリックの表示

コンピューティングメトリック UI へのアクセス

ノードレベルでメトリックを表示する

ハードウェアメトリックグラフ

Spark メトリックグラフ

GPU メトリックグラフ