为作业设置和清除排除的节点

如果发现特定节点上的任务一致失败,可以通过将其添加到 排除的节点 作业属性,从一个或多个作业中排除该节点。 在 排除的节点中指定节点时:

  • 作业中已添加到 排除节点 的节点上运行的任务将被取消,并标记为 失败节点发布 任务除外)。

  • 节点发布 任务在释放节点之前在排除的节点上运行。

  • 作业中的任务不会在 排除的节点中列出的节点上启动。

  • 如果添加到 “排除的节点” 列表会导致作业低于其最低资源要求,则会取消作业并重新排队。

对于任何活动作业,可以在 排除的节点 作业属性中添加或删除节点,或清除列表。 下表列出了使用 HPC PowerShell 或命令提示符修改和查看排除的节点列表的命令。

在 HPC PowerShell 中,使用 Set-HpcJobcmdlet,例如:

  • Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –JobId <yourJobID>).ExcludedNodes

  • 或者查看所有作业属性,Get-HpcJob –JobId <yourJobID>|fl

在命令提示符下,使用 作业修改 命令,例如:

  • job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • 或者查看所有作业属性,job view <yourJobID> /detailed

注意

对于 SOA 作业,代理节点会根据 EndPointNotFoundRetryPeriod 设置(在服务配置文件中)自动更新和维护排除节点的列表。 此设置指定服务主机应重试加载服务的时间,以及代理应等待连接的时间。 如果这一次过去,中转站会将节点(服务主机)添加到“排除的节点”列表中。 服务配置还包括 maxExcludedNodes 设置,该设置指定在会话失败之前可以排除多少个节点。

监视群集上的排除节点

若要查看群集上所有排除的节点,请使用 Get-HpcJob PowerShell cmdlet。 以下示例演示如何列出今天提交的作业的所有已排除节点。 该脚本还列出了用于排除节点的作业的作业模板。 在以下 cmdlet 中,<今天日期> 以日期格式指定,例如 mm/dd/yy:

Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort

如果群集管理员检测到并解决了一个或多个节点上的问题,则管理员可以从出现的任何节点排除列表中删除固定节点。 以下 cmdlet 获取所有活动作业,并从节点排除列表中删除固定节点(这不会影响不列出指定节点的作业):

Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>