Compartir a través de


Establecer y borrar nodos excluidos para trabajos

Si observa que las tareas producen un error constante en un nodo determinado, puede excluir ese nodo de uno o varios trabajos agregándolo a la propiedad de trabajo Nodos excluidos. Al especificar nodos en el Nodos excluidos:

  • Las tareas del trabajo que se ejecutan en un nodo que se ha agregado a nodos excluidos se cancelan y se marcan como Error (con la excepción de tareas de lanzamiento de nodo).

  • tareas de lanzamiento de node se ejecutan en el nodo excluido antes de que se libere el nodo.

  • No se inicia ninguna tarea en los nodos que aparecen en Nodos excluidos.

  • Si las adiciones a la nodos excluidos lista hacen que el trabajo se quite debajo de sus requisitos mínimos de recursos, el trabajo se cancela y se vuelve a poner en cola.

Para cualquier trabajo activo, puede agregar o quitar nodos en la propiedad Nodos excluidos o borrar la lista. A continuación se enumeran los comandos para modificar y ver la lista Nodos excluidos mediante HPC PowerShell o un símbolo del sistema.

En HPC PowerShell, use el cmdlet Set-HpcJob, por ejemplo:

  • Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –JobId <yourJobID>).ExcludedNodes

  • O para ver todas las propiedades del trabajo, Get-HpcJob –JobId <yourJobID>|fl

En un símbolo del sistema, use el comando job modify, por ejemplo:

  • job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • O para ver todas las propiedades del trabajo, job view <yourJobID> /detailed

Nota

En el caso de los trabajos de SOA, el nodo de agente actualiza y mantiene automáticamente la lista de nodos excluidos según el valor de EndPointNotFoundRetryPeriod (en el archivo de configuración del servicio). Esta configuración especifica cuánto tiempo debe reintentar el host de servicio al cargar el servicio y cuánto tiempo debe esperar el agente para una conexión. Si transcurre este tiempo, el agente agrega el nodo (host de servicio) a la lista Nodos excluidos. La configuración del servicio también incluye la configuración de maxExcludedNodes que especifica cuántos nodos se pueden excluir antes de que se produzca un error en la sesión.

Supervisión de nodos excluidos en el clúster

Para ver todos los nodos excluidos de un clúster, use el cmdlet Get-HpcJob PowerShell. En el ejemplo siguiente se muestra cómo enumerar todos los nodos excluidos para los trabajos que se enviaron hoy. El script también muestra la plantilla de trabajo que se usó para el trabajo que excluyó el nodo. En el siguiente cmdlet, <fecha de hoy> se especifica en un formato de fecha como mm/dd/aaaa:

Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort

Si el administrador del clúster detecta y resuelve el problema en uno o varios nodos, el administrador puede quitar el nodo fijo de cualquier lista de exclusión de nodos en la que aparezca. El siguiente cmdlet obtiene todos los trabajos activos y quita los nodos fijos de las listas de exclusión de nodos (esto no tiene ningún efecto en los trabajos que no enumeran los nodos especificados):

Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>