了解作业和任务状态
在 HPC Pack 中,作业和任务具有几乎相同的生命周期状态。 主要生命周期状态是 配置、排队、运行、已完成、失败和 已取消。 作业和任务还会经历短暂的过渡状态。 下表汇总了所有生命周期状态。
作业和任务状态
州 | 定义 |
---|---|
配置 | 作业或任务在系统中,但尚未提交到队列。 |
提交 |
作业或任务已提交,正在等待验证,然后才能排队。 |
验证 | HPC 作业计划程序服务正在验证作业或任务。 在验证期间,HPC 作业计划程序服务会确认权限,对作业所有者未指定的任何属性应用默认设置,并针对约束验证每个属性。 默认设置和约束由作业模板定义。 有关作业模板的详细信息,请参阅 了解作业模板 - 作业管理器。 HPC 作业计划程序服务还确认作业属性包含所有任务属性(例如,没有任务具有比作业的运行时更大的运行时)。 在验证期间,作业还可能通过群集管理员定义的自定义提交筛选器应用程序。 如果作业通过验证,则它会移动到 排队 状态。 如果作业未通过验证,作业会显示错误消息,作业将移动到“失败” 状态 |
已排队 |
作业或任务已通过验证,正在等待计划并激活(运行)。 当正在运行的作业、基本 任务或 参数扫描 子任务被 HPC 作业计划程序服务抢占时,它将移回 排队 状态(除非任务不可重新运行,在这种情况下,该任务被标记为 失败)。 注意: 在 HPC Pack 2012 中,排队 计划模式下抢占行为的默认选项是任务级即时抢占,而不是作业级抢占。 |
调度 | 此状态仅适用于任务。 HPC 作业计划程序服务已将资源分配给任务,并正在联系分配的节点以开始运行该任务。 任务启动时,它会移动到“正在运行” 状态 |
运行 | 作业或任务在一个或多个节点上运行。 |
完成 | 作业或任务已完成,作业或任务清理正在进行中。 |
已完成 | 作业或任务已成功完成。 |
失败 | 作业或任务无法完成、停止运行或返回指示失败的退出代码(默认情况下,任何非零退出代码)。 此外,正在运行的任务在以下情况下标记为“失败”失败: - 作业所有者或群集管理员取消任务。 - HPC 作业计划程序服务取消任务,因为它已超出其最大运行时。 - HPC 作业计划程序服务抢占未标记为可重新运行的任务。 - HPC 作业计划程序服务抢占按资源启动的子任务(节点准备、节点发布和 服务 子任务)。 如果作业或任务因群集故障而无法启动,作业或任务会在标记为 “失败”之前自动重试指定的次数。 |
取消 | 作业或任务已取消,正在清理。 |
已取消 | 作业由作业所有者、群集管理员或 HPC 作业计划程序服务取消。 例如,如果 HPC 作业计划程序服务超过其运行时或被抢占,则可以取消作业。 任务在开始运行之前由作业所有者或群集管理员取消。 如果已取消正在运行的任务,该任务将标记为 失败。 若要取消作业或任务,请参阅 取消作业或任务 - 作业管理器 或 强制取消作业或任务 - 作业管理器。 |