Compartir a través de


Descripción del reposición

El rerrelleno puede ayudar a maximizar el uso y el rendimiento del clúster, ya que permite que los trabajos más pequeños se vuelvan a ejecutar antes de un trabajo esperando en la parte delantera de la cola, siempre y cuando el trabajo en el frente no se retrase como resultado. El servicio programador de trabajos de HPC aumenta la ejecución de trabajos a sus recursos solicitados máximos antes de intentar utilizar recursos para rerrellenar. Para obtener información sobre cómo cambiar las opciones de configuración, consulte Configure the HPC Job Scheduler Service.

El reposición está habilitado de forma predeterminada, con la apariencia de reposición de establecida en 1000 trabajos. La configuración de reposición anticipada determina el número de trabajos que busca el servicio programador de trabajos de HPC para buscar trabajos que puedan rellenar los huecos de la programación. Las siguientes opciones de configuración permiten modificar o deshabilitar el reposición:

  • Permitir reposición desde parte de la cola (dentro de la apariencia de reposición especificada)

  • Permitir reposición desde toda la cola

  • No permitir de reposición

Nota

El reposición solo es efectivo cuando los trabajos enviados al clúster tienen un tiempo de ejecución máximo especificado.

Puede usar plantillas de trabajo para definir un tiempo de ejecución máximo en todos los trabajos. Por ejemplo, puede crear una serie de plantillas de trabajo denominadas BigJob, MediumJob y SmallJob con tiempos de ejecución máximos de un día, una hora y un minuto, respectivamente. Para obtener más información, consulte plantillas de trabajo.

También puede escribir un filtro de envío de trabajo que compruebe que la propiedad del trabajo en tiempo de ejecución no está establecida en infinito. Para obtener más información, vea Descripción de los filtros de activación y envío.

Funcionamiento de la reposición

Cuando un trabajo llega a la parte superior de la cola, es posible que un número suficiente de nodos no esté disponible para cumplir su requisito básico mínimo. Cuando esto sucede, el trabajo reserva los nodos que están disponibles inmediatamente y espera a que se complete el trabajo que se está ejecutando actualmente.

A continuación, el reposición utiliza los nodos inactivos reservados de la siguiente manera:

  1. En función del tiempo de ejecución especificado para el trabajo que se está ejecutando actualmente, se establece una hora de inicio para el trabajo en espera.

  2. La hora de inicio se usa para definir una ventana de reposición de nodos (n) x hora (t). Por ejemplo, cuatro nodos inactivos durante 15 minutos crearían una ventana de reposición de 4 x 15.

  3. HpC Job Scheduler Service busca el primer trabajo de la cola que se puede completar dentro de la ventana de reposición. Por ejemplo, un trabajo que requiere un mínimo de ocho núcleos (cuatro nodos, suponiendo que los nodos de dos núcleos) y tenga un tiempo de ejecución de 10 minutos se ajustaría exactamente a la ventana de 4 x 15.

  4. Si se encuentra un trabajo que se ajusta a la ventana, se activa y se ejecuta por delante del trabajo que está esperando en la parte superior de la cola.

Referencias adicionales