Definir e limpar nós excluídos para trabalhos
Se você observar que as tarefas falham consistentemente em um nó específico, poderá excluir esse nó de um ou mais trabalhos adicionando-o à propriedade Nós Excluídos trabalho. Quando você especifica os nós no Nós Excluídos:
As tarefas no trabalho em execução em um nó que foi adicionado a
nós excluídos são canceladas e marcadas comocom falha (com exceção das tarefas de versão do nó ). as tarefas de Versão do Nó são executadas no nó excluído antes do nó ser liberado.
Nenhuma tarefa no trabalho é iniciada em nós listados em Nós Excluídos.
Se as adições à lista Nós Excluídos fazer com que o trabalho seja suspenso abaixo de seus requisitos mínimos de recursos, o trabalho será cancelado e requeusado.
Para qualquer trabalho ativo, você pode adicionar ou remover nós na propriedade Nós Excluídos trabalhos ou limpar a lista. O seguinte lista os comandos a serem modificados e exibir a lista de Nós Excluídos usando o HPC PowerShell ou um prompt de comando.
No HPC PowerShell, use o cmdlet
Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /clearExcludedNodes
(Get-HpcJob –JobId <yourJobID>).ExcludedNodes
Ou para exibir todas as propriedades do trabalho,
Get-HpcJob –JobId <yourJobID>|fl
Em um prompt de comando, use o comando modificação de trabalho, por exemplo:
job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>
job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
job modify <yourJobID> /clearExcludedNodes
job view <yourJobID> /detailed|find “excludednodes” /i
Ou para exibir todas as propriedades do trabalho,
job view <yourJobID> /detailed
Nota
Para trabalhos SOA, o nó do agente atualiza e mantém automaticamente a lista de nós excluídos de acordo com a configuração EndPointNotFoundRetryPeriod (no arquivo de configuração de serviço). Essa configuração especifica por quanto tempo o host de serviço deve tentar carregar novamente o serviço e por quanto tempo o agente deve aguardar uma conexão. Se esse tempo passar, o agente adicionará o nó (host de serviço) à lista de Nós Excluídos. A configuração de serviço também inclui a configuração de maxExcludedNodes que especifica quantos nós podem ser excluídos antes que a sessão falhe.
Monitorando nós excluídos no cluster
Para ver todos os nós excluídos em um cluster, use o cmdlet Get-HpcJob PowerShell. O exemplo a seguir mostra como listar todos os nós excluídos para trabalhos que foram enviados hoje. O script também lista o modelo de trabalho usado para o trabalho que excluiu o nó. No cmdlet a seguir, <data de hoje> é especificada em um formato de data, como mm/dd/yyyy:
Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort
Se o administrador do cluster detectar e resolver o problema em um ou mais nós, o administrador poderá remover o nó fixo de qualquer lista de exclusão de nó na qual ele aparece. O cmdlet a seguir obtém todos os trabalhos ativos e remove os nós fixos das listas de exclusão de nós (isso não tem efeito em trabalhos que não listam os nós especificados):
Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>