为作业设置和清除排除的节点
如果发现特定节点上的任务一致失败,可以通过将其添加到 排除的节点 作业属性,从一个或多个作业中排除该节点。 在 排除的节点中指定节点时:
作业中已添加到 排除节点 的节点上运行的任务将被取消,并标记为 失败(节点发布 任务除外)。
节点发布 任务在释放节点之前在排除的节点上运行。
作业中的任务不会在 排除的节点中列出的节点上启动。
如果添加到 “排除的节点” 列表会导致作业低于其最低资源要求,则会取消作业并重新排队。
对于任何活动作业,可以在 排除的节点 作业属性中添加或删除节点,或清除列表。 下表列出了使用 HPC PowerShell 或命令提示符修改和查看排除的节点列表的命令。
在 HPC PowerShell 中,使用 Set-HpcJobcmdlet,例如:
Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /clearExcludedNodes
(Get-HpcJob –JobId <yourJobID>).ExcludedNodes
或者查看所有作业属性,
Get-HpcJob –JobId <yourJobID>|fl
在命令提示符下,使用 作业修改 命令,例如:
job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>
job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
job modify <yourJobID> /clearExcludedNodes
job view <yourJobID> /detailed|find “excludednodes” /i
或者查看所有作业属性,
job view <yourJobID> /detailed
注意
对于 SOA 作业,代理节点会根据 EndPointNotFoundRetryPeriod 设置(在服务配置文件中)自动更新和维护排除节点的列表。 此设置指定服务主机应重试加载服务的时间,以及代理应等待连接的时间。 如果这一次过去,中转站会将节点(服务主机)添加到“排除的节点”列表中。 服务配置还包括 maxExcludedNodes 设置,该设置指定在会话失败之前可以排除多少个节点。
监视群集上的排除节点
若要查看群集上所有排除的节点,请使用 Get-HpcJob PowerShell cmdlet。 以下示例演示如何列出今天提交的作业的所有已排除节点。 该脚本还列出了用于排除节点的作业的作业模板。 在以下 cmdlet 中,<今天日期> 以日期格式指定,例如 mm/dd/yy:
Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort
如果群集管理员检测到并解决了一个或多个节点上的问题,则管理员可以从出现的任何节点排除列表中删除固定节点。 以下 cmdlet 获取所有活动作业,并从节点排除列表中删除固定节点(这不会影响不列出指定节点的作业):
Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>