次の方法で共有


コンピューティング メトリックの表示

この記事では、Azure Databricks UI のネイティブ コンピューティング メトリック ツールを使用して、主要なハードウェアと Spark のメトリックを収集する方法について説明します。 メトリック UI は多目的に、そしてジョブのコンピューティングに利用できます。

Note

ノートブックとジョブのサーバーレス コンピューティングでは、メトリック UI の代わりにクエリ分析情報が使用されます。 サーバーレス コンピューティング メトリックの詳細については、「クエリの分析情報を表示する」を参照してください。

メトリックは、通常 1 分以内の遅延で、ほぼリアルタイムで利用可能です。 メトリックは、顧客のストレージではなく、Azure Databricks が管理するストレージに保存されます。

これらの新しいメトリックは Ganglia とどう違いますか?

新しいコンピューティング メトリック UI では、Spark の使用量や内部 Databricks プロセスなど、クラスターのリソース使用量をより包括的に把握できます。 対照的に、Ganglia UI では Spark コンテナーの消費量のみが測定されます。 この違いにより、2 つのインターフェイス間のメトリック values が不一致になる可能性があります。

コンピューティング メトリック UI へのアクセス

コンピューティング メトリック UI を表示します。

  1. サイドバーで、[コンピューティング]をクリックします。
  2. メトリックを表示させたいコンピューティングをクイックします。
  3. [メトリック] タブをクリックします。

直近 24 時間のメトリックを表示する

ハードウェア メトリックは既定で表示されます。 Spark メトリックを表示するには、[ハードウェア] というラベルの付いたドロップダウン メニューをクリックし、selectSparkを選択します。 インスタンスが GPU 対応の場合は、GPU を することもできます。

期間でメトリックをフィルター処理する

日付の選択フィルターを使用して時間の範囲を選択することで、履歴メトリックを表示できます。 メトリックは 1 分ごとに収集されるため、過去 30 日間の任意の範囲の日、時間、または分でフィルター処理できます。 予定表アイコンをクリックして定義済みのデータ範囲から select するか、テキスト ボックス内をクリックしてカスタム valuesを定義します。

Note

グラフに表示される時間間隔は、表示している時間の長さに基づいて調整されます。 ほとんどのメトリックは、現在表示している時間間隔に基づく平均です。

[Refresh] ボタンをクリックして、最新のメトリックを get することもできます。

ノード レベルでメトリックを表示する

個々のノードのメトリックを表示するには、[コンピューティング] ドロップダウン メニューをクリックし、メトリックを表示するノードを選択します。 GPU メトリックは、個々のノード レベルでのみ使用できます。 Spark メトリックは、個々のノードでは使用できません。

Note

特定のノードを select しない場合、結果はクラスター内のすべてのノード (ドライバーを含む) で平均化されます。

ハードウェア メトリック グラフ

コンピューティング メトリック UI では、次のハードウェア メトリック グラフを表示できます。

  • サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
  • CPU 使用率: 合計 CPU 秒コストに基づいて、各モードで CPU が費やした時間の割合。 メトリックは、グラフに表示される時間間隔に基づいて平均化されます。 次のモードが追跡されます。
    • guest: VM を実行している場合、それらの VM が使用する CPU
    • iowait: I/O の待機に費やされた時間
    • idle: CPU が何も行っていなかった時間
    • irq: 割り込み要求に費やされた時間
    • nice: 正の nice 値を持つ (つまり他のタスクより優先度が低い) プロセスによって使用された時間
    • softirq: ソフトウェア割り込み要求に費やされた時間
    • steal: 自分が VM の場合、他の VM によって "盗まれた" 自分の CPU の時間
    • system: カーネルで費やされた時間
    • user: ユーザーランドで費やされた時間
  • メモリ使用率: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、モードごとの合計メモリ使用量。 次の使用状況の種類が追跡されます。
    • used: 使用メモリ (コンピューティングで実行されているバックグラウンド プロセスによって使用されるメモリを含む)
    • free: 未使用メモリ
    • buffer: カーネル バッファーによって使用されるメモリ
    • cached: OS レベルのファイル システム キャッシュによって使用されるメモリ
  • メモリ スワップ使用率: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、モードごとの合計メモリ スワップ使用量。
  • ファイル システムの空き領域: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、マウント ポイントごとの合計ファイル システム使用量。
  • ネットワーク経由での受信量: グラフに表示される時間間隔に基づいて平均化された、デバイスごとのネットワーク経由で受信されたバイト数。
  • ネットワーク経由での送信量: グラフに表示される時間間隔に基づいて平均化された、デバイスごとのネットワーク経由で送信されたバイト数。
  • アクティブ ノードの数: 指定されたコンピューティングのすべての timestamp にあるアクティブ ノードの数が表示されます。

Spark メトリック グラフ

コンピューティング メトリック UI では、次の Spark メトリック グラフを表示できます。

  • サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
  • アクティブなタスクの数: グラフに表示される時間間隔に基づいて平均化された、特定の時点で実行されていたタスクの合計数。
  • 失敗したタスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor で失敗したタスクの合計数。
  • 完了したタスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor で完了したタスクの合計数。
  • タスクの合計数: グラフに表示される時間間隔に基づいて平均化された、Executor でのすべてのタスク (実行中、失敗、完了) の合計数。
  • 合計シャッフル読み取り量: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、シャッフル読み取りデータの合計サイズ。 Shuffle read は、ステージの先頭にあるすべての Executor でシリアル化された読み取りデータの合計を意味します。
  • 合計シャッフル書き込み量: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、シャッフル書き込みデータの合計サイズ。 Shuffle Write は、送信前 (通常はステージの最後) のすべての Executor で書き込まれたシリアル化されたデータの合計です。
  • タスクの合計期間: 秒単位で測定され、グラフに表示される時間間隔に基づいて平均化された、JVM が Executor でタスクの実行に費やした合計経過時間。

GPU メトリック グラフ

Note

GPU メトリックは、Databricks Runtime ML 13.3 以降でのみ使用できます。

コンピューティング メトリック UI では、次の GPU メトリック グラフを表示できます。

  • サーバー負荷分散: このグラフは、各ノードの過去 1 分間の CPU 使用率を示します。
  • GPU ごとのデコーダー使用率: グラフに表示される時間間隔に基づいて平均化された、GPU デコーダーの使用率。
  • GPUごとのエンコーダー使用率: グラフに表示される時間間隔に基づいて平均化された、GPU エンコーダーの使用率。
  • GPU ごとのフレーム バッファー メモリ使用バイト数: バイト単位で測定され、グラフに表示される時間間隔に基づいて平均化された、フレーム バッファーのメモリ使用率。
  • GPU ごとのメモリ使用率: グラフに表示される時間間隔に基づいて平均化された、GPU メモリの使用率。
  • GPU ごとの使用率: グラフに表示される時間間隔に基づいて平均化された、GPU の使用率。

トラブルシューティング

一定期間のメトリックが不完全または不足している場合は、次のいずれかの問題が発生する可能性があります。

  • メトリックのクエリと格納を行う Databricks Service に障害が発生しました。
  • お客様側のネットワークの問題。
  • コンピューティングは異常な状態であるか、または異常な状態でした。