了解节点状态、运行状况和操作
节点状态 反映节点的部署状态,以及管理员是否希望该节点可用作群集作业的资源。 管理员将节点引入 Online 状态,以指示节点应接受作业或客户端请求。
节点运行状况 指示 HPC 服务在该节点上是否有任何警告或错误。 如果节点的节点运行状况值 错误,则节点将无法接受作业或客户端请求,即使节点状态 联机也是如此。
在正常操作期间,节点的节点运行状况值 正常。 以下列表描述了普通节点状态值:
头节点的节点状态值为 脱机。 如果头节点也充当计算节点或 WCF 中转站节点,或者为高可用性安装头节点,则其正常节点状态值 Online。
计算节点和 Windows Communication Foundation (WCF) 中转站节点的节点状态值为 Online。
根据可用性策略,工作站节点可以具有 联机 或 脱机节点状态值。
在 Windows Azure 中定义但未部署的 Windows Azure 节点具有常规节点状态值 未部署。 部署的 Windows Azure 节点的正常节点状态值为 Online。
监视和维护群集运行状况过程的一部分是发现与正常节点状态和运行状况的偏差,以及监视群集操作的状态。
本主题中的各节介绍了以下项的值:
节点状态
节点状态反映节点的部署状态,以及管理员是否希望节点可用作群集作业的资源。
当头节点首次检测到网络上的本地节点时,该节点会显示在“未知” 状态
当管理员将 Windows Azure 节点添加到群集时,它们会显示在“未部署”
当管理员将工作站节点和非托管服务器节点添加到群集,并在分配节点模板后,可以联机运行群集作业,然后脱机以恢复其正常工作负荷。 在节点模板中配置为联机且手动脱机的节点最初将处于脱机状态。 配置为根据每周可用性策略联机和脱机的节点将开始遵循该策略,这些节点将在计划间隔内自动联机。
管理员将节点 联机 或采用节点 脱机 来指示节点是否应接受并运行群集作业。 Windows Azure 节点和工作站节点也可以根据每周可用性策略 联机 或 脱机。 HPC 作业计划程序服务将仅尝试在处于 Online 状态的节点上启动新作业。 若要使节点对新作业不可用,管理员可以将节点 脱机。 节点必须处于 脱机 状态才能运行某些管理操作,例如 重置映像 或 维护。
可以使用节点列表视图显示每个节点的状态,并按节点状态筛选计算节点。
下表描述了节点状态值:
节点状态 | 描述 |
---|---|
Online | 此状态指示节点应接受并运行群集作业。 对于 WCF 代理节点,此状态指示它们应该可用于管理 SOA 会话。 HPC 作业计划程序服务将仅尝试将工作分配给处于 Online 状态的节点。 节点必须处于 Online 节点状态,才能运行作业(或管理会话)正常运行。 如果节点运行状况 错误,则作业将无法在该节点上启动。 节点可以 联机 或群集管理员 脱机。 Windows Azure 节点、工作站节点和非托管服务器节点也可以根据每周可用性策略 联机 或 脱机。 |
脱机 |
此状态指示节点不应用于运行群集作业。 对于 WCF 代理节点,这表示它不应用于管理 SOA 会话。 此状态允许群集管理员运行脚本、安装软件并在节点上执行其他任务。 这是群集管理员批准节点加入群集后节点的默认状态。 这是头节点的正常状态(除非安装该节点以实现高可用性)。 如果希望头节点执行其他节点角色(例如计算节点或 WCF 代理节点),则可以将头节点 联机。 有关详细信息,请参阅 了解 Microsoft HPC Pack中的节点角色。 节点可以 联机 或群集管理员 脱机。 Windows Azure 节点、工作站节点和非托管服务器节点也可以根据每周可用性策略 联机 或 脱机。 如果节点在运行作业时处于脱机状态,它将首先通过 清空 状态移动。 如果管理员选择立即强制节点脱机,则会取消任何正在运行的任务,并在作业中重新排队。 |
未知 | 此状态指示节点不是群集的一部分,或者该节点上的预配操作已失败。 若要将节点加入群集,请将 分配节点模板 操作应用到节点。 在高可用性群集中,在第一个头节点上运行安装程序后,第二个头节点将处于 未知 状态,直到该节点上运行安装程序。 安装后,第二个头节点将移动到 Online 状态。 |
预配 | 本地节点 此状态指示节点正在配置为群集节点。 分配节点模板、重置映像,维护 操作也将节点置于预配状态。 预配完成后,节点将转到 脱机 状态。 Windows Azure 节点 此状态指示节点实例正在 Windows Azure 中部署。 “开始” 操作或自动可用性策略可将 Windows Azure 节点置于预配状态。 预配成功完成后,手动启动的 Windows Azure 节点将转到 脱机 状态,并且启动的 Windows Azure 节点会自动进入 Online 状态。 |
开始 | 此状态表示节点正在从 脱机 模式转换为 Online 模式。 |
清空 | 此状态表示节点已脱机,并且正在转换为 脱机 状态。 节点在进入 脱机 状态之前完成当前正在运行的作业。 清空 节点不接受新作业。 |
删除 | 此状态指示正在从 HPC 节点管理服务数据库中删除有关节点的信息。
Delete 操作将节点置于此状态。 已删除的节点本身上没有任何更改。 如果节点尝试重新加入群集,则会为数据库中的该节点创建一个新条目,该节点将显示在“未知” 状态 |
拒绝 | 此状态指示节点已由群集管理员拒绝。 |
未部署的 | 此状态仅适用于 Windows Azure 节点。 此状态指示 Windows Azure 节点已定义并添加到群集,但该节点尚未在 Windows Azure 中启动和预配(尚未在 Windows Azure 中创建节点实例)。 Windows Azure 节点根据节点模板中定义的可用性策略进行部署:手动(使用 开始 操作),或根据每周计划自动部署。 未部署 状态中的 Windows Azure 节点在 Windows Azure 中不会产生费用。 |
停止 | 此状态仅适用于 Windows Azure 节点。 此状态指示正在从 Windows Azure 中删除 Windows Azure 节点实例。 Windows Azure 节点根据节点模板中定义的可用性策略停止:手动(使用 停止 操作),或根据每周计划自动停止。 停止操作完成后(节点实例已从 Windows Azure 中删除),该节点将转到 未部署 状态。 |
节点运行状况
节点运行状况 指示 HPC 服务在该节点上是否有任何警告或错误。
可以使用节点列表视图显示每个计算节点的运行状况,并按节点运行状况筛选节点。 如果节点运行状况 错误 或 警告,请查看 节点运行状况 选项卡上的信息以了解更多详细信息。 可以在 详细信息窗格(在列表视图中)或双击节点来查看 节点运行状况 选项卡。
下表描述了节点运行状况值:
节点运行状况 | 描述 |
---|---|
正常 | HPC 服务不知道节点存在任何问题。 |
警告 | 此值可以指示以下内容: - 群集管理员在节点上运行诊断测试,一个或多个测试返回了 失败的结果, 或 运行失败。 管理员可以手动清除诊断警报(请参阅 解决和清除诊断警报)。 - 一个或多个节点操作处于 失败、还原或 已取消 状态。 读取操作日志 以调查问题。 查看“节点运行状况”选项卡中的信息,开始调查问题。 |
错误 | 此值可以指示以下内容: - 节点不可访问,由 检测信号选项确定。 - 预配失败。 - 群集管理员拒绝了节点。 (如果决定将节点加入群集,则可以分配节点模板。 查看“节点运行状况”选项卡中的信息,开始调查问题。 |
过渡 | 此值指示节点正在执行群集管理员启动的操作,例如: - 分配节点模板、重置映像或 维护(在这种情况下,节点状态 预配)。 - 联机(在这种情况下,节点状态 启动)。 - 脱机(在这种情况下,节点状态 清空)。 - Windows Azure 节点启动(在这种情况下,节点状态 预配)。 查看“节点运行状况”选项卡以获取其他信息或取消操作。 |
未经批准的 | 本地节点 节点已由头节点检测到,但它不是群集的一部分。 分配节点模板以将节点加入群集。 另请参阅 将节点添加到群集。 Windows Azure 节点 该节点已添加到群集,但节点尚未在 Windows Azure 中启动和预配(节点实例不存在于 Windows Azure 中)。 |
操作状态
有关如何查看操作日志的信息,请参阅 读取操作日志。
下表描述了操作状态值:
操作状态 | 描述 |
---|---|
存档 | 操作超过 24 小时,或者已清除诊断测试。 将操作存档后,将从其他状态报告中删除该操作。 |
已提交的 | 操作已成功完成。 |
执行 |
操作正在进行中。 |
失败 | 该操作无法执行。 |
还原 | 正在还原操作。 完成操作清理后,该操作将移动到 还原 状态。 |
还原 失败 | 操作的清理未成功。 |
还原 | 操作在失败或取消后还原。 |