監視節點
監視和維護叢集健康情況的關鍵步驟是識別任何偏離正常作業狀態或效能。 HPC 叢集管理員可讓您一目了然地檢視叢集和節點狀態、識別問題節點,以及向下切入節點詳細數據以進一步調查。
在本主題中:
一目了然地檢視叢集狀態
在 節點管理,您可以使用節點 清單 檢視或節點 熱度圖 檢視來監視叢集。 在 圖表和報表中,監視圖表會顯示節點健全狀況和叢集使用率的目前和最近數據。 如需詳細資訊,請參閱
使用監視圖表
向下切入至個別節點詳細數據
清單 和 熱度圖 檢視提供識別問題區域的起點。 按兩下計算節點,以查看詳細資訊,例如硬體、作業系統屬性和目前的效能計量。 您也可以選取一或多個節點,然後向下切入到節點詳細數據以調查效能。
執行診斷測試和報告:在一或多個計算節點上執行診斷測試。
檢視效能圖表:檢視一段時間計算節點的效能計量圖表。
檢視節點事件:檢視特定計算節點上 HPC 服務所產生的事件。
從 HPC Cluster Manager 開啟與節點的遠端桌面連線:開啟遠端桌面會話至一或多個計算節點。
監視節點作業
追蹤最近或進行中的叢集作業是管理叢集至關重要的另一個監視層面。 如需詳細資訊,請參閱
將節點、作業、作業和診斷之間的監視資訊相互關聯
在 HPC 作業管理員中,您可以使用 Pivot 來 動作,將節點、作業、作業和診斷之間的監視資訊相互關聯。 例如,您可以在檢視窗格中選取一或多個節點,然後樞紐至 [選取的節點]的 [
支持的樞紐路徑如下:
節點: 樞紐至作業、測試結果和作業。
作業: 樞紐至節點。
測試結果: 樞紐至失敗的節點和作業。
監視一段時間的叢集使用量和統計數據
HPC Cluster Manager 提供數個內建圖表和報告,可監視和分析一段時間的叢集資源使用量和作業和節點統計數據。 HPCReporting 資料庫也支援自定義報告。 如需詳細資訊,請參閱 圖表和報表:HPC Cluster Manager。