設定和清除作業的排除節點
如果您注意到特定節點上的工作一致失敗,您可以將該節點新增至 排除節點 作業屬性,以排除該節點。 當您在 [排除的節點]中指定節點時:
在已新增至 排除節點 之節點上執行的工作會取消,並標示為失敗 (但 節點發行 工作除外)。
節點發行 工作會在釋放節點之前,於排除的節點上執行。
作業中的工作不會在 排除的節點中所列的節點上啟動。
如果新增 排除節點 清單會導致作業低於其最低資源需求,則會取消作業並重新排入佇列。
針對任何使用中作業,您可以在 [排除的節點] jobs 屬性中新增或移除節點,或清除清單。 下列列出使用 HPC PowerShell 或命令提示字元修改和檢視排除節點清單的命令。
在 HPC PowerShell 中,使用 Set-HpcJobCmdlet,例如:
Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /clearExcludedNodes
(Get-HpcJob –JobId <yourJobID>).ExcludedNodes
或檢視所有作業屬性,
Get-HpcJob –JobId <yourJobID>|fl
在命令提示字元中,使用 作業修改 命令,例如:
job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>
job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
job modify <yourJobID> /clearExcludedNodes
job view <yourJobID> /detailed|find “excludednodes” /i
或檢視所有作業屬性,
job view <yourJobID> /detailed
注意
針對SOA作業,訊息代理程式節點會根據 EndPointNotFoundRetryPeriod 設定,自動更新並維護排除的節點清單(在服務組態檔中)。 此設定會指定服務主機應該重試載入服務的時間,以及訊息代理程式應該等候連線的時間長度。 如果這次經過,訊息代理程式會將節點(服務主機)新增至 [排除的節點] 清單。 服務組態也包含 maxExcludedNodes 設定,指定會話失敗前可排除多少個節點。
監視叢集上的排除節點
若要查看叢集上所有排除的節點,請使用 Get-HpcJob PowerShell Cmdlet。 下列範例示範如何列出今天提交之作業的所有排除節點。 腳本也會列出用於排除節點之作業的作業範本。 在下列 Cmdlet 中,<今天的日期> 是以 mm/dd/yy 等日期格式指定:
Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort
如果叢集管理員偵測到並解決一或多個節點上的問題,系統管理員可以從出現的任何節點排除清單中移除固定節點。 下列 Cmdlet 會取得所有作用中作業,並從節點排除清單中移除固定節點(這不會影響未列出指定節點的作業):
Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>