Descripción del control de errores

Artículo
10/18/2024

En este tema se describe la configuración de control de errores para el servicio de programador de trabajos de HPC. Para obtener información sobre cómo cambiar las opciones de configuración, consulte Configure the HPC Job Scheduler Service.

En este tema se incluyen las secciones siguientes:

opciones de latido
tareas y trabajos de reintento
período de gracia de cancelación de la tarea
tiempo de espera de la tarea de versión de Node
límite de nodos excluidos

Opciones de latido

El servicio del Administrador de nodos de HPC en cada nodo envía informes de estado normales al servicio programador de trabajos de HPC. Este informe de estado se denomina latido. Esta señal de latido comprueba la disponibilidad del nodo. Si un nodo pierde demasiados latidos, el servicio programador de trabajos de HPC marca el nodo como inaccesible.

La siguiente configuración de propiedades de clúster se aplica a los sondeos de estado:

intervalo de latido: la frecuencia, en segundos, de los sondeos de estado. El valor predeterminado es 30 segundos.
latidos perdidos (recuento de inactividad): el número de latidos que un nodo puede perder antes de que se considere inaccesible. El valor predeterminado es 3.

Nota

A partir de HPC Pack 2012 con Service Pack 1 (SP1), se proporcionan opciones independientes para configurar el recuento de inactividad para los nodos locales (locales) y los nodos de Windows Azure. Debido a la posible latencia de red al alcanzar nodos de Windows Azure, el recuento de inactividad predeterminado para los nodos de Windows Azure es 10.

consideraciones adicionales

Un nodo puede perder un latido por muchas razones, entre las que se incluyen:
- Problemas con la conectividad de red
- El servicio administrador de nodos de HPC no se está ejecutando en el nodo de proceso
- Error de autenticación entre el nodo principal y el nodo de proceso
Si aumenta la frecuencia de los sondeos de estado (establece un intervalo de latido más corto), puede detectar errores más rápidamente, pero también aumenta el tráfico de red. El aumento del tráfico de red puede reducir el rendimiento del clúster.
Cuando un nodo se marca como inaccesible, los trabajos que se ejecutan en ese nodo pueden producir un error. Si sabe que la red tiene errores intermitentes frecuentes, es posible que desee aumentar el Recuento de inactividades para evitar errores de trabajo innecesarios. Consulte también tareas y trabajos de reintento en este tema.

Reintentar trabajos y tareas

El servicio programador de trabajos de HPC reintenta automáticamente los trabajos y las tareas que producen un error debido a un problema de clúster, como un nodo que se vuelve inaccesible o que se detiene mediante la directiva de adelantamiento. Después de un número especificado de intentos incorrectos, el servicio programador de trabajos de HPC marca el trabajo o tarea como Error.

La siguiente configuración de propiedades del clúster determina el número de veces que se reintentan los trabajos y las tareas:

reintento de trabajo: el número de veces que se reintenta automáticamente un trabajo. El valor predeterminado es 3.
reintento de tarea: el número de veces que se reintenta automáticamente una tarea. El valor predeterminado es 3.

consideraciones adicionales

Las tareas no se reintentan automáticamente si la propiedad de tarea vuelve a ejecutarse en false.
Los trabajos no se reintentan automáticamente si la propiedad del trabajo Error en la tarea se establece en true.
Para obtener más información, vea Understanding Job and Task Properties.

Período de gracia de cancelación de tareas

Cuando se detiene una tarea en ejecución durante la ejecución, puede permitir que la aplicación guarde información de estado, escriba un mensaje de registro, cree o elimine archivos o para que los servicios finalicen el cálculo de su llamada de servicio actual. Puede configurar la cantidad de tiempo, en segundos, para permitir que las aplicaciones salgan correctamente estableciendo la propiedad Task Cancel Grace Period cluster. El de período de gracia de cancelación de tarea predeterminado es de 15 segundos.

Importante

En Windows HPC Server 2008 R2, el servicio administrador de nodos de HPC detiene una tarea en ejecución enviando una señal de CTRL_BREAK a la aplicación. Para usar el período de gracia, la aplicación debe procesar el evento CTRL_BREAK. Si la aplicación no procesa el evento, la tarea se cierra inmediatamente. Para que un servicio use el período de gracia, debe procesar el evento ServiceContext.OnExiting.

consideraciones adicionales

Un administrador de clúster o un propietario de trabajo pueden forzar la cancelación de una tarea en ejecución. Cuando se cancela una tarea, la tarea y sus subtareas omiten el período de gracia y se detienen inmediatamente. Para obtener más información, vea Forzar cancelación de un trabajo o tarea.
Puede ajustar el tiempo de período de gracia según cómo las aplicaciones que se ejecutan en el clúster controlan la señal de CTRL_BREAK. Por ejemplo, si las aplicaciones intentan copiar grandes cantidades de datos después de la señal, puede aumentar el tiempo de espera en consecuencia.

Tiempo de espera de la tarea de versión del nodo

Los propietarios de trabajos pueden agregar tareas de versión de nodo para ejecutar un comando o script en cada nodo a medida que se libera del trabajo. tareas de de versión de node se pueden usar para devolver nodos asignados a su estado previo al trabajo o para recopilar archivos de datos y de registro.

El de tiempo de espera de la tarea de versión de nodo de determina el tiempo de ejecución máximo (en segundos) para tareas de lanzamiento de nodo. El valor predeterminado es de 10 segundos.

consideraciones adicionales

Si un trabajo tiene un tiempo de ejecución máximo y una tarea de versión del nodo, el programador cancela las demás tareas del trabajo antes de que expire el tiempo de ejecución del trabajo (tiempo de ejecución del trabajo menos tiempo de ejecución de la tarea De lanzamiento del nodo). Esto permite que la tarea de versión del nodo de se ejecute dentro del tiempo asignado para el trabajo.
tareas de de versión del nodo se ejecutan incluso si se cancela un trabajo. Un administrador de clústeres o el propietario del trabajo pueden forzar la cancelación de un trabajo para omitir la tarea de versión del nodo de . Para obtener más información, vea Forzar cancelación de un trabajo o tarea.

Límite de nodos excluidos

El límite de nodos excluidos especifica la cantidad máxima de nodos que se pueden enumerar en la propiedad de trabajo Nodos excluidos. La nodos excluidos propiedad de trabajo puede especificar una lista de nodos que el programador de trabajos debe dejar de usar o abstenerse de usar para un trabajo determinado.

Si un propietario del trabajo o un administrador de clústeres observa que las tareas de un trabajo producen un error constante en un nodo determinado, pueden agregar ese nodo a la propiedad de trabajo nodos excluidos . Cuando se alcanza el límite de nodos excluidos , se intenta agregar más nodos a la lista. Para obtener más información, consulte Establecer y borrar nodos excluidos para trabajos.

En el caso de los trabajos de SOA, el nodo de agente actualiza y mantiene automáticamente la lista de nodos excluidos según el valor de EndPointNotFoundRetryPeriod (en el archivo de configuración del servicio). Esta configuración especifica cuánto tiempo debe reintentar el host de servicio al cargar el servicio y cuánto tiempo debe esperar el agente para una conexión. Si transcurre este tiempo, el agente agrega el nodo (host de servicio) a la lista Nodos excluidos. Cuando se supera el límite de nodos excluidos , el nodo de agente cancela el trabajo de SOA.

Nota

Si cambia el límite de nodos excluidos de para el clúster, el nuevo límite solo se aplicará a las listas de nodos excluidas modificadas después de establecer el nuevo límite. Es decir, el número de nodos enumerados en el nodos excluidos propiedad de trabajo solo se valida con el límite de todo el clúster en el momento en que se crea el trabajo o que se modifica la propiedad .

Compartir a través de

Descripción del control de errores

Opciones de latido

Reintentar trabajos y tareas

Período de gracia de cancelación de tareas

Tiempo de espera de la tarea de versión del nodo

Límite de nodos excluidos

Referencias adicionales

Recursos adicionales