管理作业队列
在作业管理中,可以监视和管理提交到群集的作业。 在作业列表中,每行表示一个作业,列显示作业属性、作业状态和指标值。 作业列表提供了一个起点,用于向下钻取作业详细信息,并在一个或多个作业上执行操作。
作业队列的顺序基于作业优先级和提交时间。 优先级较高的作业在优先级较低的作业之前运行。 作业提交时间确定每个优先级中的顺序。 可以通过以下方法帮助调节作业队列的顺序:
创建 作业模板 定义不同类型的作业或不同用户组的有效优先级范围。
修改提交的作业的优先级以更改作业队列的顺序。 可以在优先级带、优先级编号或两者的组合中指定 优先级。 数值优先级可以具有介于 0(最低)和 4000(最高) 之间的值。
本主题概述如何管理和监视群集作业。
配置作业计划策略
作业提交策略: 作业模板是定义群集自定义作业提交策略的主要方法。 作业模板允许将作业属性(例如优先级级别)的一组默认值和值约束与一组特定的用户相关联。 有关详细信息,请参阅 作业模板。
资源分配策略: 作业计划程序配置确定如何将资源分配给排队的作业。 配置 HPC 作业计划程序服务时,可以设置计划策略(例如均衡模式或排队模式、抢占和回填)、错误处理和作业历史记录选项。 有关详细信息,请参阅 配置 HPC 作业计划程序服务。
高级策略强制实施和许可证感知计划: 可以通过创建自定义作业提交筛选器和作业激活筛选器来强制实施特定于站点的作业提交策略和作业激活策略(例如许可证感知计划)。 有关详细信息,请参阅 了解激活和提交筛选器。
查看作业和任务
监视作业: 作业列表显示有关群集中的作业的信息。 可以筛选和排序列表,然后选择要在列表中显示的作业属性和指标值。 有关详细信息,请参阅 筛选和排序作业列表。
钻取作业详细信息: 单击列表中的作业时,有关该作业的详细信息会显示在 详细信息窗格中。 还可以查看作业和任务结果。 有关详细信息,请参阅 查看作业或任务。
跟踪一段时间内的作业统计信息: HPC 群集管理器提供了多个图表和报表来跟踪群集的作业统计信息。 有关详细信息,请参阅 图表和报表:HPC 群集管理器。
执行作业和任务操作
作为群集管理员或作业所有者,可以执行以下操作:
取消作业或任务:从队列中删除作业或任务并释放其资源。
强制取消作业或任务:立即停止作业或任务。
重新排队作业或任务:将未完成的作业或任务放回队列。
修改作业:更改作业属性(如优先级),或将任务添加到活动作业。
为作业设置和清除排除的节点:如果发现特定节点上的任务一致失败,则可以从一个或多个作业中排除该节点。 如果解决节点上的问题,可以从任何活动作业 排除的节点 属性中清除该节点。
设置进度和进度消息作业属性:提供有关作业的自定义进度信息。
复制作业或任务:再次运行作业,as-is或更改。
将作业或任务保存到文件:将作业或任务规范导出到 XML 说明文件。
本节内容
为作业 设置和清除排除的节点