Поделиться через


Установка и очистка исключенных узлов для заданий

Если вы заметили, что задачи последовательно завершаются сбоем на определенном узле, можно исключить этот узел из одного или нескольких заданий, добавив его в свойство задания исключенных узлов. При указании узлов в исключенных узлов:

  • Задачи в задании, запущенном на узле, добавленном в исключенных узлов, отменяются и помечаются как не удалось (за исключением задач выпуска узла узла).

  • задачи выпуска узла выполняются на исключенном узле перед выпуском узла.

  • Задачи в задании не запускаются на узлах, перечисленных в исключенных узлах.

  • Если дополнения к списку исключенных узлов приводят к удалению задания ниже минимальных требований к ресурсам, задание отменяется и перезаписывается.

Для любого активного задания можно добавлять или удалять узлы в свойстве заданий исключенных узлов или очистить список. Ниже перечислены команды для изменения и просмотра списка исключенных узлов с помощью HPC PowerShell или командной строки.

В HPC PowerShell используйте командлет Set-HpcJob, например:

  • Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –JobId <yourJobID>).ExcludedNodes

  • Или просмотреть все свойства задания, Get-HpcJob –JobId <yourJobID>|fl

В командной строке используйте команду задания изменить, например:

  • job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • Или просмотреть все свойства задания, job view <yourJobID> /detailed

Заметка

Для заданий SOA узел брокера автоматически обновляет и сохраняет список исключенных узлов в соответствии с параметром EndPointNotFoundRetryPeriod (в файле конфигурации службы). Этот параметр указывает, сколько времени узел службы должен повторить загрузку службы и сколько времени брокер должен ждать подключения. Если этот раз истекает, брокер добавляет узел (узел службы) в список исключенных узлов. Конфигурация службы также включает параметр maxExcludedNodes, указывающий, сколько узлов можно исключить до сбоя сеанса.

Мониторинг исключенных узлов в кластере

Чтобы просмотреть все исключенные узлы в кластере, используйте командлет Get-HpcJob PowerShell. В следующем примере показано, как перечислить все исключенные узлы для заданий, отправленных сегодня. Скрипт также содержит шаблон задания, который использовался для задания, за исключением узла. В следующем командлете <текущей даты> указывается в формате даты, например mm/dd/гггг:

Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort

Если администратор кластера обнаруживает и устраняет проблему на одном или нескольких узлах, администратор может удалить фиксированный узел из любого списка исключений узлов, в котором он отображается. Следующий командлет получает все активные задания и удаляет фиксированные узлы из списков исключений узлов (это не влияет на задания, которые не перечисляют указанные узлы):

Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>