了解错误处理
本主题介绍 HPC 作业计划程序服务的错误处理设置。 有关如何更改配置选项的信息,请参阅 配置 HPC 作业计划程序服务。
本主题包含以下部分:
检测信号选项
每个节点上的 HPC 节点管理器服务都会将常规运行状况报告发送到 HPC 作业计划程序服务。 此运行状况报告称为 检测信号。 此检测信号验证节点可用性。 如果节点错过了过多检测信号,HPC 作业计划程序服务会将节点标记为无法访问。
以下群集属性设置适用于运行状况探测:
检测信号间隔:运行状况探测的频率(以秒为单位)。 默认值为 30 秒。
未命中检测信号(非活动计数):节点在被视为无法访问之前可能会错过的检测信号数。 默认值为 3。
注意
从具有 Service Pack 1(SP1 的 HPC Pack 2012 开始),提供了单独的设置来配置本地(本地)节点和 Windows Azure 节点的非活动计数。 由于到达 Windows Azure 节点时可能存在网络延迟,因此 Windows Azure 节点的默认非活动计数为 10。
其他注意事项
由于多种原因,节点可能会错过检测信号,包括:
网络连接问题
HPC 节点管理器服务未在计算节点上运行
头节点与计算节点之间的身份验证失败
如果增加运行状况探测的频率(设置较短 检测信号间隔),则可以更快地检测故障,但也会增加网络流量。 增加的网络流量可能会降低群集性能。
当某个节点标记为无法访问时,在该节点上运行的作业可能会失败。 如果知道网络经常出现间歇性故障,可能需要增加 非活动计数 以避免不必要的作业失败。 另请参阅本主题中的 重试作业和任务。
重试作业和任务
HPC 作业计划程序服务会自动重试由于群集问题而失败的作业和任务,例如节点变得无法访问,或者由抢占策略停止。 在指定的尝试失败次数后,HPC 作业计划程序服务会将作业或任务标记为 失败。
以下群集属性设置确定重试作业和任务的次数:
作业重试:自动重试作业的次数。 默认值为 3。
任务重试:自动重试任务的次数。 默认值为 3。
其他注意事项
如果任务属性 可重新运行 设置为 false,则不会自动重试任务。
如果作业属性 任务失败 设置为 true,则作业不会自动重试。
有关详细信息,请参阅 了解作业和任务属性。
任务取消宽限期
在执行期间停止正在运行的任务时,可以允许应用程序有时间保存状态信息、编写日志消息、创建或删除文件,或者让服务完成其当前服务调用的计算。 可以通过设置 “任务取消宽限期” 群集属性来配置应用程序正常退出的时间量(以秒为单位)。 默认 任务取消宽限期 为 15 秒。
重要
在 Windows HPC Server 2008 R2 中,HPC Node Manager 服务通过向应用程序发送 CTRL_BREAK 信号来停止正在运行的任务。 若要使用宽限期,应用程序必须处理 CTRL_BREAK 事件。 如果应用程序不处理事件,任务将立即退出。 若要使服务使用宽限期,它必须处理 ServiceContext.OnExiting 事件。
其他注意事项
群集管理员或作业所有者可以强制取消正在运行的任务。 当任务被强制取消时,任务及其子任务将跳过宽限期,并立即停止。 有关详细信息,请参阅 强制取消作业或任务。
可以根据群集上运行的应用程序如何处理 CTRL_BREAK 信号来调整宽限期时间。 例如,如果应用程序尝试在信号后复制大量数据,则可以相应地增加超时。
节点发布任务超时
作业所有者可以添加 节点发布 任务,以在作业发布时在每个节点上运行命令或脚本。 节点发布 任务可用于将分配的节点返回到其作业前状态或收集数据和日志文件。
节点发布任务超时 确定 节点发布 任务的最大运行时间(以秒为单位)。 默认值为 10 秒。
其他注意事项
如果作业具有最长的运行时和 节点发布 任务,计划程序将在作业运行时过期之前取消作业中的其他任务(作业运行时 减去 节点发布任务运行时)。 这允许 节点发布 任务在作业的分配时间内运行。
即使作业被取消,Node Release 任务也会运行。 群集管理员或作业所有者可以强制取消作业以跳过 节点发布 任务。 有关详细信息,请参阅 强制取消作业或任务。
排除的节点限制
排除的节点数限制 指定可在 排除的节点 作业属性中列出的最大节点数。 排除的节点 作业属性可以指定作业计划程序应停止使用或避免用于特定作业的节点列表。
如果作业所有者或群集管理员注意到作业中的任务在特定节点上一致失败,则可以将该节点添加到 排除的节点 作业属性。 达到 排除的节点数限制 时,尝试向列表中添加更多节点会失败。 有关详细信息,请参阅 为作业设置和清除排除的节点。
对于 SOA 作业,代理节点会根据 EndPointNotFoundRetryPeriod 设置(在服务配置文件中)自动更新和维护排除节点的列表。 此设置指定服务主机应重试加载服务的时间,以及代理应等待连接的时间。 如果这一次过去,代理会将节点(服务主机)添加到 排除的节点 列表中。 超过 排除的节点数限制 时,代理节点将取消 SOA 作业。
注意
如果更改群集
其他参考
Microsoft HPC Pack 中的
作业计划程序配置