Partilhar via


Definir e limpar nós excluídos para trabalhos

Se você observar que as tarefas falham consistentemente em um nó específico, poderá excluir esse nó de um ou mais trabalhos adicionando-o à propriedade Nós Excluídos trabalho. Quando você especifica os nós no Nós Excluídos:

  • As tarefas no trabalho em execução em um nó que foi adicionado a nós excluídos são canceladas e marcadas como com falha (com exceção das tarefas de versão do nó ).

  • as tarefas de Versão do Nó são executadas no nó excluído antes do nó ser liberado.

  • Nenhuma tarefa no trabalho é iniciada em nós listados em Nós Excluídos.

  • Se as adições à lista Nós Excluídos fazer com que o trabalho seja suspenso abaixo de seus requisitos mínimos de recursos, o trabalho será cancelado e requeusado.

Para qualquer trabalho ativo, você pode adicionar ou remover nós na propriedade Nós Excluídos trabalhos ou limpar a lista. O seguinte lista os comandos a serem modificados e exibir a lista de Nós Excluídos usando o HPC PowerShell ou um prompt de comando.

No HPC PowerShell, use o cmdletSet-HpcJob, por exemplo:

  • Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –JobId <yourJobID>).ExcludedNodes

  • Ou para exibir todas as propriedades do trabalho, Get-HpcJob –JobId <yourJobID>|fl

Em um prompt de comando, use o comando modificação de trabalho, por exemplo:

  • job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • Ou para exibir todas as propriedades do trabalho, job view <yourJobID> /detailed

Nota

Para trabalhos SOA, o nó do agente atualiza e mantém automaticamente a lista de nós excluídos de acordo com a configuração EndPointNotFoundRetryPeriod (no arquivo de configuração de serviço). Essa configuração especifica por quanto tempo o host de serviço deve tentar carregar novamente o serviço e por quanto tempo o agente deve aguardar uma conexão. Se esse tempo passar, o agente adicionará o nó (host de serviço) à lista de Nós Excluídos. A configuração de serviço também inclui a configuração de maxExcludedNodes que especifica quantos nós podem ser excluídos antes que a sessão falhe.

Monitorando nós excluídos no cluster

Para ver todos os nós excluídos em um cluster, use o cmdlet Get-HpcJob PowerShell. O exemplo a seguir mostra como listar todos os nós excluídos para trabalhos que foram enviados hoje. O script também lista o modelo de trabalho usado para o trabalho que excluiu o nó. No cmdlet a seguir, <data de hoje> é especificada em um formato de data, como mm/dd/yyyy:

Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort

Se o administrador do cluster detectar e resolver o problema em um ou mais nós, o administrador poderá remover o nó fixo de qualquer lista de exclusão de nó na qual ele aparece. O cmdlet a seguir obtém todos os trabalhos ativos e remove os nós fixos das listas de exclusão de nós (isso não tem efeito em trabalhos que não listam os nós especificados):

Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>