Общие сведения об обработке ошибок
В этом разделе описаны параметры обработки ошибок для службы планировщика заданий HPC. Сведения об изменении параметров конфигурации см. в разделе Настройка службы планировщика заданий HPC.
В этом разделе приведены следующие разделы:
времени ожидания задачи выпуска узла
ограничение
исключенных узлов
Параметры пульса
Служба диспетчера узлов HPC на каждом узле отправляет регулярные отчеты о работоспособности в службу планировщика заданий HPC. Этот отчет о работоспособности называется пульса. Этот сигнал пульса проверяет доступность узла. Если узел пропускает слишком много пульса, служба планировщика заданий HPC помечает узел как недоступный.
К пробам работоспособности применяются следующие параметры свойства кластера:
интервал пульса: частота( в секундах) проб работоспособности. Значение по умолчанию — 30 секунд.
пропущенных пульсов (число бездействия): число пульсов, которые узел может пропустить до того, как он считается недоступным. Значение по умолчанию — 3.
Заметка
Начиная с пакета HPC 2012 с пакетом обновления 1 (SP1) предоставляются отдельные параметры, чтобы настроить количество бездействия для локальных (локальных) узлов и узлов Windows Azure. Из-за возможной задержки в сети при достижении узлов Windows Azure число неактивности по умолчанию для узлов Windows Azure равно 10.
Дополнительные рекомендации
Узел может пропустить пульс по многим причинам, в том числе:
Проблемы с сетевым подключением
Служба диспетчера узлов HPC не запущена на вычислительном узле
Сбой проверки подлинности между головным узлом и вычислительным узлом
Если увеличить частоту проб работоспособности (задать более короткий интервал пульса), можно быстрее обнаружить сбои, но также увеличить сетевой трафик. Увеличение сетевого трафика может снизить производительность кластера.
Если узел помечен как недоступный, задания, выполняемые на этом узле, могут завершиться ошибкой. Если вы знаете, что в сети часто возникают периодические сбои, возможно, потребуется увеличить количество бездействия, чтобы избежать ненужных сбоев заданий. См. также задания и задачи повторных попыток в этом разделе.
Повторная попытка заданий и задач
Служба планировщика заданий HPC автоматически повторяет задания и задачи, которые завершаются сбоем из-за проблемы с кластером, например узла, который становится недоступным или остановлен политикой предварительного прерывания. После указанного числа неудачных попыток служба планировщика заданий HPC помечает задание или задачу как сбой.
Следующие параметры свойств кластера определяют количество повторных заданий и задач.
повторное выполнение задания: количество попыток автоматического повтора задания. Значение по умолчанию — 3.
повторных попыток задачи: количество автоматически повторяемых попыток задачи. Значение по умолчанию — 3.
Дополнительные рекомендации
Задачи не возвращаются автоматически, если для свойства задачи для повторного запуска задано значение false.
Задания не выполняются автоматически, если свойство задания Fail on task failure имеет значение true.
Льготный период отмены задачи
При остановке выполняемой задачи во время выполнения можно разрешить приложению сохранять сведения о состоянии, записывать сообщение журнала, создавать или удалять файлы или выполнять вычисления текущего вызова службы. Вы можете настроить время (в секундах), чтобы разрешить приложениям работать корректно, задав свойство кластера "Отмена льготного периода" кластера. По умолчанию льготный период выполнения задачи составляет 15 секунд.
Важный
В Windows HPC Server 2008 R2 служба HPC Node Manager останавливает выполнение задачи, отправив CTRL_BREAK сигнал приложению. Чтобы использовать льготный период, приложение должно обработать событие CTRL_BREAK. Если приложение не обрабатывает событие, задача завершается немедленно. Для использования льготного периода служба должна обрабатывать событие ServiceContext.OnExiting.
Дополнительные рекомендации
Администратор кластера или владелец задания может принудительно отменить выполнение задачи. При отмене задачи задача и ее вложенные задачи пропускают льготный период и немедленно останавливаются. Дополнительные сведения см. в разделе Принудительное отмена задания или задачи.
Вы можете настроить льготный период в соответствии с тем, как приложения, выполняемые в кластере, обрабатывают сигнал CTRL_BREAK. Например, если приложения пытаются скопировать большие объемы данных после сигнала, можно увеличить время ожидания соответствующим образом.
Время ожидания задачи выпуска узла
Владельцы заданий могут добавлять задачи выпуска узла
Время ожидания задачи выпуска узла
Дополнительные рекомендации
Если задание имеет максимальное время выполнения и задачу выпуска узла, планировщик отменяет другие задачи в задании до истечения срока выполнения задания (время выполнения задания минус время выполнения задачи выпуска узла). Это позволяет задаче выпуска узла
выполняться в течение выделенного времени для задания. задачи выпуска узла выполняются, даже если задание отменено. Администратор кластера или владелец задания может принудительно отменить задание, чтобы пропустить задачу выпуске узла. Дополнительные сведения см. в разделе Принудительное отмена задания или задачи.
Ограничение исключенных узлов
Ограничение исключенных узлов указывает максимальное количество узлов, которые можно перечислить в свойстве задания исключенных узлов задания. Свойство задания исключенных узлов может указать список узлов, которые планировщик заданий должен остановить использование или воздержаться от использования для определенного задания.
Если владелец задания или администратор кластера заметил, что задачи в задании последовательно завершаются сбоем на определенном узле, они могут добавить этот узел в свойство задания исключенных узлов. Когда достигнуто ограничение для
Для заданий SOA узел брокера автоматически обновляет и сохраняет список исключенных узлов в соответствии с параметром EndPointNotFoundRetryPeriod (в файле конфигурации службы). Этот параметр указывает, сколько времени узел службы должен повторить загрузку службы и сколько времени брокер должен ждать подключения. Если этот раз истекает, брокер добавляет узел (узел службы) в список исключенных узлов. Если превышено ограничение исключенных узлов, узел брокера отменяет задание SOA.
Заметка
Если изменить ограничение исключенных узлов для кластера, новое ограничение будет применяться только к исключенным спискам узлов, которые изменяются после установки нового ограничения. То есть количество узлов, перечисленных в свойстве задания исключенных узлов, заданий проверяется только в случае создания задания или изменения свойства.