监视节点

监视和维护群集运行状况的关键步骤是识别与正常操作状态或性能的任何偏差。 HPC 群集管理器使你能够一目了然地查看群集和节点状态,识别问题节点,并向下钻取到节点详细信息,以便进一步调查。

在本主题中:

概览群集状态

节点管理 可以使用节点 列表 视图或节点 热度映射 视图一目了然地监视群集。 在 图表和报表中,监视图表显示有关节点运行状况和群集利用率的当前和最近数据。 有关详细信息,请参阅:

向下钻取到单个节点详细信息

列表热度地图 视图提供了确定问题区域的起点。 双击计算节点可查看硬件、操作系统属性和当前性能指标等详细信息。 还可以选择一个或多个节点,然后向下钻取到节点详细信息以调查性能。

监视节点操作

跟踪最近或正在进行的群集操作是管理群集至关重要的另一个监视方面。 有关详细信息,请参阅:

关联节点、作业、操作和诊断之间的监视信息

在 HPC 作业管理器中,可以使用 透视来 操作来关联节点、作业、操作和诊断之间的监视信息。 例如,可以在视图窗格中选择一个或多个节点,然后透视到所选节点的 作业。 这会转到按所选节点筛选的作业列表视图。

支持的透视路径包括:

  • 节点: 透视作业、测试结果和操作。

  • 作业: 透视节点。

  • 测试结果: 透视到失败的节点和操作。

监视一段时间内的群集使用情况和统计信息

HPC 群集管理器提供了多个内置图表和报表,用于监视和分析群集资源使用情况以及随时间推移的作业和节点统计信息。 HPCReporting 数据库还支持自定义报告。 有关详细信息,请参阅 图表和报表:HPC 群集管理器

本节内容