Устранение неполадок с состояниями неактивности (серого цвета) агента в System Center Operations Manager

Статья
04/15/2024

В этой статье описывается, как устранять проблемы, в которых агент, сервер управления или шлюз недоступен или неактивен в System Center Operations Manager (OpsMgr).

Исходная версия продукта: Microsoft System Center 2012 Operations Manager
Исходный номер базы знаний: 2288515

Агент, сервер управления или шлюз могут иметь одно из следующих состояний, как указано цветом имени агента и значком в области мониторинга .

Штат	Внешний вид	Description
Работоспособно	Зеленый флажок	Агент или сервер управления работает в нормальном режиме.
Критически важно	Красный флажок	С агентом или сервером управления возникла проблема.
Неизвестно	Имя серого агента, серый флажок	Наблюдатель службы работоспособности на сервере управления, следящий за службой работоспособности на отслеживаемом компьютере, больше не получает пакет пульса от агента. Наблюдатель службы работоспособности ранее получал пульс, а состояние было работоспособным. Это также означает, что серверы управления больше не получают данные от агента. Эта проблема может возникнуть, если компьютер, на котором запущен агент, не запущен, либо имеются проблемы с подключением.
Неизвестно	Зеленый круг, без флажка	Состояние обнаруженного элемента неизвестно. Для этого конкретного обнаруженного элемента мониторинг недоступен.

Причины серого состояния

Агент, сервер управления или шлюз могут стать недоступными по любой из следующих причин:

Сбой пакетов пульса
Недопустимая конфигурация
Сбой системных рабочих процессов
Проблемы с производительностью базы данных или хранилища данных Operations Manager
Проблемы с производительностью сервера управления или сервера шлюза
Проблемы с сетью или проверкой подлинности
Служба работоспособности не работает

Область проблемы

Прежде чем приступить к устранению проблемы с серым цветом агента, сначала следует понять топологию Operations Manager, а затем определить область проблемы. Следующие вопросы помогут вам определить область проблемы:

Сколько агентов затронуты?
Возникают ли проблемы агенты в одном сетевом сегменте?
Сообщите агенты одному серверу управления?
Как часто агенты входят и остаются в сером состоянии?
Как обычно вы восстанавливаетесь после этой ситуации (например, перезапуск службы работоспособности агента, очистка кэша, использование автоматического восстановления)?
Создаются ли оповещения о сбоях пульса для этих агентов?
Возникает ли эта проблема в течение определенного времени дня?
Сохраняется ли эта проблема при отработки отказа этих агентов на другой сервер управления или шлюз?
Когда появилась проблема?
Были ли внесены какие-либо изменения в агенты, серверы управления или шлюз или группу управления?
Являются ли затронутые агенты кластеризованными системами Windows?
Исключена ли папка состояния служба работоспособности из антивирусной проверки?

Стратегия по устранению неполадок

Стратегия устранения неполадок будет зависеть от того, какой компонент неактивен, где этот компонент попадает в топологию и насколько широко распространена проблема. Проверьте следующее:

Если агенты, которые сообщают на определенный сервер управления или шлюз, недоступны, устранение неполадок должно начинаться на уровне сервера управления или шлюза.
Если шлюзы, которые сообщают на определенный сервер управления, недоступны, устранение неполадок должно начинаться на уровне сервера управления.
Для бессагентных систем для сетевых устройств и серверов Unix и Linux устранение неполадок должно начинаться с агента, сервера управления или шлюза, который отслеживает эти объекты.
Устранение неполадок обычно начинается на уровне непосредственно над недоступным компонентом.

Сценарий 1

Проблема затрагивает только несколько агентов. Эти агенты сообщают на разные серверы управления. Агенты остаются недоступными на регулярной основе. Хотя вы можете очистить кэш агента, чтобы временно устранить проблему, проблема возникает через несколько дней.

Разрешение для сценария 1

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Примените соответствующее исправление к затронутым операционным системам.
Исключите кэш агента из антивирусной проверки. Дополнительные сведения см . в рекомендациях по исключениям антивирусной программы, связанным с Operations Manager.
Остановите службу работоспособности.
Снимите кэш агента.
Запустите службу работоспособности.

Сценарий 2

Проблема затрагивает только несколько агентов. Эти агенты сообщают на разные серверы управления. Агенты остаются неактивными постоянно. Хотя вы можете очистить кэш агента, это не устраняет проблему.

Разрешение для сценария 2

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Определите, включена ли служба работоспособности и в настоящее время работает на сервере управления или шлюзе. Если служба работоспособности перестала отвечать, создайте дамп ADPlus в режиме зависания службы, чтобы помочь определить причину проблемы. Дополнительные сведения см. в статье "Использование ADPlus.vbs для устранения неполадок с зависанием" и "сбоями"
Проверьте журнал событий Operations Manager в агенте, чтобы найти любое из следующих событий:

Идентификатор события: 1102
Источник события: HealthService
Описание события:
Правило или монитор "%4", запущенное для экземпляра "%3" с идентификатором:"%2", не может быть инициализировано и не будет загружено. Группа управления "%1"

Идентификатор события: 1103
Источник события: HealthService
Описание события:
Сводка: сбой правил %2/мониторов и выгрузился, %3 из них достигли предела сбоя, который предотвращает автоматическую перезагрузку. Группа управления "%1". Это событие содержит только сводку; см. другие события с описанием выгруженных правил/мониторов.

Идентификатор события: 1104
Источник события: HealthService
Описание события:
Профиль runAs в рабочем процессе "%4", запущенный для экземпляра "%3" с идентификатором:"%2", не может быть разрешен. Рабочий процесс не загружается. Группа управления "%1"

Идентификатор события: 1105
Источник события: HealthService
Описание события:
Несоответствие типов для профиля RunAs в рабочем процессе "%4", работающем для экземпляра "%3" с идентификатором:"%2". Рабочий процесс не загружается. Группа управления "%1"

Идентификатор события: 1106
Источник события: HealthService
Описание события:
Не удается получить доступ к профилю Запуска обычного текста в рабочем процессе "%4", работающем для экземпляра "%3" с идентификатором:"%2". Рабочий процесс не загружается. Группа управления "%1"

Идентификатор события: 1107
Источник события: HealthService
Описание события:
Учетная запись профиля запуска в рабочем процессе "%4", выполняющаяся для экземпляра "%3" с идентификатором:"%2" не определена. Рабочий процесс не загружается. Свяжите учетную запись с профилем. Группа управления "%1"

Идентификатор события: 1108
Источник события: HealthService
Описание события:
Не удается разрешить учетную запись, указанную в профиле запуска от имени "%7". В частности, учетная запись используется в переопределении безопасных ссылок "%6". %n%n Это могло произойти потому, что учетная запись не настроена для распространения на данный компьютер. Для устранения этой проблемы необходимо открыть указанный ниже профиль запуска от имени, найти учетную запись по ее идентификатору SSID и либо распространить учетную запись на данный компьютер (при необходимости), либо изменить настройки профиля так, чтобы целевой объект не использовал эту учетную запись. %n%nManagement Group: %1 %nRun As Profile: %7 %nSecureReferenceOverride name: %6 %nSecureReferenceOverride ID: %4 %nObject name: %3 %nObject ID: %2 %nAccount SSID: %5

Идентификатор события: 4000
Источник события: HealthService
Описание события:
Узел мониторинга не отвечает или произошел сбой. Код состояния для сбоя узла составил %1.

Идентификатор события: 21016
Источник событий: Соединитель OpsMgr
Описание события:
OpsMgr не удалось настроить канал связи на %1, и нет узлов отработки отказа. Обмен данными возобновляется, если %1 доступен и обмен данными с этого компьютера разрешено.

Идентификатор события: 21006
Источник событий: Соединитель OpsMgr
Описание события:
Соединитель OpsMgr не удалось подключиться к %1:%2. Код ошибки — %3(%4). Убедитесь, что есть сетевое подключение, сервер запущен и зарегистрировал его порт прослушивания, и брандмауэры не блокируют трафик в место назначения.

Идентификатор события: 20070
Источник событий: Соединитель OpsMgr
Описание события:
Соединитель OpsMgr подключен к %1, но подключение было закрыто сразу после проверки подлинности. Наиболее вероятной причиной этой ошибки является то, что у агента нет прав для взаимодействия с этим сервером или что этот сервер не получил конфигурацию. Проверьте наличие в журнале этого сервера событий с кодом 20000, означающих, что к серверу пытались подключиться неутвержденные агенты.

Идентификатор события: 20051
Источник событий: Соединитель OpsMgr
Описание события:
Не удалось загрузить указанный сертификат, так как сертификат в настоящее время недействителен. Убедитесь, что системное время правильно и повторно выдает сертификат при необходимости%n Допустимое время начала сертификата: %1%n Допустимое время окончания сертификата : %2

Источник событий: ESE
Категория событий: Диспетчер транзакций
Идентификатор события: 623
Описание: HealthService (<PID>) Хранилище версий для экземпляра< экземпляра>< ("<name>") достигло максимального размера значения> Mb. Скорее всего, длительная транзакция предотвращает очистку хранилища версий и приводит к его созданию в размере. Обновления будут отклонены до тех пор, пока долго выполняющаяся транзакция не будет полностью зафиксирована или откатена. Возможная длительная транзакция:
SessionId: <значение>
Контекст сеанса: <значение>
ThreadId контекста сеанса: <значение>.
Очистка: <значение>
При обнаружении следующих конкретных событий следуйте приведенным ниже рекомендациям:
- События 1102 и 1103: эти события указывают на то, что некоторые рабочие процессы не удалось загрузить. Если речь идет об основных системных рабочих процессах, эти события могут вызвать проблему. В таком случае следует сосредоточиться на разрешении этих событий.
- События 1104, 1105, 1106, 1107 и 1108: эти события могут привести к возникновению событий 1102 и 1103. Как правило, это происходит из-за неправильно настроенных учетных записей RunAs (запуск от имени). Например, учетные записи RunAs (запуск от имени) настроены для использования с неправильным классом или не настроены для распространения агенту.
- Событие 4000: это событие указывает, что процесс Monitoringhost.exe произошел сбой. Если эта проблема вызвана несоответствием библиотеки DLL или отсутствием разделов реестра, вы можете устранить эту проблему, переустановив агент. Если проблема сохранится, попробуйте устранить ее с помощью следующих методов:
  - Запустите запись монитора процессов до тех пор, пока процесс не завершается сбоем. Дополнительные сведения см. в разделе "Монитор процессов" версии 3.53.
  - Создайте дамп ADPlus в режиме сбоя. Дополнительные сведения см. в статье "Использование ADPlus.vbs для устранения неполадок с зависанием" и "сбоями"
- Идентификатор события 21006: это событие означает, что проблемы с взаимодействием существуют между агентом и сервером управления. Если агент использует сертификат для взаимной проверки подлинности, убедитесь, что срок действия сертификата не истек и что агент использует правильный сертификат. Если используется Kerberos, убедитесь, что агент может взаимодействовать с Active Directory. Если проверка подлинности работает правильно, это может означать, что пакеты от агента не достигают сервера управления или шлюза. Попробуйте установить telnet на порт 5723 от агента к серверу управления. Кроме того, выполняйте одновременную трассировку сети между агентом и сервером управления при воспроизведении сбоев связи. Это поможет вам определить, достигают ли пакеты сервера управления, и какое устройство между двумя компонентами пытается оптимизировать трафик или удаляет некоторые пакеты. Дополнительные сведения см. в разделе "Сбор данных с помощью сетевого монитора".
- Идентификатор события 623. Обычно это событие происходит в большой среде Operations Manager, в которой сервер управления или компьютер агента управляет многими рабочими процессами. Дополнительные сведения см. в статье "Один или несколько серверов управления" и их управляемых устройств неактивны в консоли Operations Manager.

Сценарий 3

Все агенты, сообщающие на определенный сервер управления или шлюз, недоступны.

Разрешение для сценария 3

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Попробуйте определить, какие рабочие нагрузки отслеживает сервер управления или шлюз. Такие рабочие нагрузки могут включать сетевые устройства, кроссплатформенные агенты, искусственные транзакции, агенты Windows и компьютеры без агента.
Определите, работает ли служба работоспособности на сервере управления или шлюзе.
Определите, работает ли сервер управления в режиме обслуживания. При необходимости удалите сервер из режима обслуживания.
Проверьте журнал событий Operations Manager в агенте для любого из событий, перечисленных в сценарии 2. Если имеется идентификатор события 21006, следуйте тем же рекомендациям, которые упоминаются в разделе "Решение" для сценария 2. Кроме того, в этом случае это событие указывает, что сервер управления или шлюз не могут взаимодействовать с родительским сервером. Для шлюза родительский сервер может быть любым сервером управления. (См. шаг 3 в Разрешение для сценария 2.)
Изучите журнал событий Operations Manager на присутствие следующих событий. Обычно эти события указывают на то, что проблемы с производительностью существуют на сервере управления или в Microsoft SQL Server, на котором размещена OperationsManager база данных или OperationsManagerDW база данных:

Идентификатор события: 2115
Источник события: HealthService
Описание события:
Источник данных Bind в группе управления %1 опубликовал элементы в рабочем процессе, но не получил ответ в %5 секунд. Это указывает на производительность или функциональную проблему с рабочим процессом.%n Идентификатор рабочего процесса : %2%n Экземпляр : %3%n Идентификатор экземпляра : %4%n

Идентификатор события: 5300
Источник события: HealthService
Описание события:
Локальная служба работоспособности не работает. Поток изменения состояния сущности застопорится с ожиданием подтверждения. %n%nManagement Group: %2 %nManagement Group ID: %1

Идентификатор события:4506
Источник события: HealthService
Описание события: Operations Manager
Данные были удалены из-за слишком большого количества невыполненных данных в правиле "%2", работающем для экземпляра "%3" с идентификатором:"%4" в группе управления "%1".

Идентификатор события: 31551
Источник событий: модули служба работоспособности
Описание события:
Не удалось сохранить данные в хранилище данных. Операция будет извлечена.%rException "%5": %6 %n%nOne или более рабочих процессов пострадали от этого. %n%nWorkflow name: %2 %nInstance name: %3 %nInstance ID: %4 %nManagement group: %1

Идентификатор события: 31552
Источник событий: модули служба работоспособности
Описание события:
Не удалось сохранить данные в хранилище данных.%rException "%5": %6 %n%nOne или более рабочих процессов пострадали от этого. %n%nWorkflow name: %2 %nInstance name: %3 %nInstance ID: %4 %nManagement group: %1

Идентификатор события: 31553
Источник событий: модули служба работоспособности
Описание события:
Данные были записаны в промежуточную область хранилища данных, но обработка не удалась при одной из последующих операций.%rException "%5": %6 %n%nOne или более рабочих процессов пострадали от этого. %n%nWorkflow name: %2 %nInstance name: %3 %nInstance ID: %4 %nManagement group: %1

Идентификатор события: 31557
Источник событий: модули служба работоспособности
Описание события:
Не удалось получить сведения о состоянии процесса синхронизации из базы данных хранилища данных. Операция будет извлечена.%rException "%5": %6 %n%nOne или более рабочих процессов пострадали от этого. %n%nWorkflow name: %2 %nInstance name: %3 %nInstance ID: %4 %nManagement group: %1
Идентификатор события 3155X также может быть зарегистрирован из-за неправильной конфигурации учетной записи запуска от имени или отсутствующих разрешений для учетных записей запуска от имени.

Примечание.

Сведения об устранении неполадок с производительностью сервера управления или шлюза и производительностью SQL Server см. в разделе "Решение" для сценария 4 .

Сценарии 4

Все агенты, отчитывающиеся на конкретный сервер управления, чередуются между здоровыми и серыми состояниями. Или все агенты в среде чередуются периодически между здоровыми и серыми состояниями.

Разрешение для сценария 4

Чтобы устранить проблему, сначала определите причину проблемы. Ниже приведены распространенные причины недоступности временного сервера:

Родительский сервер агентов временно находится в автономном режиме.
Агенты заполняют сервер управления операционными данными, такими как оповещения, состояния, обнаружения и т. д. Это может привести к увеличению использования системных ресурсов в базе данных Operations Manager и на серверах Operations Manager.
Сбои сети вызвали временный сбой связи между родительским сервером и агентами.
Произошли изменения пакета управления (MP). В консоли Operations Manager эти изменения требуют конфигурации Operations Manager и распространения mp для агентов. Если изменение влияет на большую базу агента, это может привести к увеличению использования системных ресурсов на серверах базы данных Operations Manager и Operations Manager.

Ключом к устранению неполадок в этих сценариях является понимание длительности недоступности сервера и времени дня, в течение которого он произошел. Это поможет вам быстро сузить область проблемы.

Устранение неполадок с производительностью сервера управления и шлюза

Сервер управления

Во время ускорения обновления конфигурации (это вызвано импортом и обнаружением mp), типичными узкими местами являются, во-первых, ЦП и второе— диск установки Operations Manager. За пересылку файлов конфигурации целевым агентам отвечает сервер управления.

В случае сбора операционных данных узким местом чаще всего является процессор. Операции ввода-вывода с диском также могут выполняться на пределе возможностей, но это маловероятно. Сервер управления отвечает за распаковку и расшифровку входящих операционных данных и их добавление в операционную базу данных. Он также отправляет подтверждения (ACK) агентам или шлюзам после получения операционных данных и использует очередь дисков для временного хранения этих исходящих подтверждений.

Шлюз

Шлюз связан как с ЦП, так и с привязкой ввода-вывода. Когда шлюз ретранслируется большое количество данных, операции ЦП и операций ввода-вывода могут отображать высокую загрузку. Большая часть использования ЦП вызвана декомпрессией, сжатием, шифрованием и расшифровки входящих данных, а также передачей этих данных. Все данные, полученные шлюзом и от агентов, хранятся в постоянной очереди на диске, для чтения и пересылки на сервер управления службой работоспособности шлюза. Это может привести к интенсивному использованию диска. Это использование может быть значительным, если шлюз временно находится в автономном режиме, а затем должен обрабатывать накопленные данные агента, созданные агентами и пытающиеся отправить, когда шлюз все еще находится в автономном режиме.

Чтобы устранить проблему в этой ситуации, соберите следующие сведения для каждого затронутого сервера управления или шлюза:

Точный номер версии, выпуска и сборки Windows
Количество процессоров
Объем ОЗУ
Диск, содержащий папку состояния служба работоспособности
Настроено ли антивирусное программное обеспечение для исключения хранилища служба работоспособности

Примечание.

Дополнительные сведения см . в рекомендациях по исключениям антивирусной программы, связанным с Operations Manager.
Уровень RAID (0, или 510+1 1+0) для диска, используемого состоянием служба работоспособности
Количество дисков, используемых для RAID
Включен ли кэш записи с поддержкой батареи на контроллере массива

Устранение проблем с производительностью SQL Server

Операционная база данных (OperationsManager)

Для базы данных OperationsManager наиболее вероятным узким местом является дисковый массив. Если дисковый массив не достиг максимального значения числа операций ввода-вывода, то следующим вероятным узким местом является процессор. Периодически в базе данных будут наблюдаться замедления в работе и штормы операционных данных (частое возникновение событий, оповещений и данных о производительности или изменения состояния, которые сохраняются в течение относительно длительного времени). Кратковременный всплеск активности обычно не приводит к значительной задержке в течение длительного периода времени.

Во время вставки операционных данных диски базы данных в основном используются для операций записи. Использование ЦП связано с оттоком SQL Server. Это может произойти при работе с большими и сложными запросами, вставке объемных данных и очистка больших таблиц (по умолчанию это происходит в полночь). Как правило, очистка даже больших событий и таблиц данных о производительности не требует использования чрезмерного количества ресурсов процессора или диска. Однако в случае очистки больших таблиц оповещений и изменений состояния нагрузка на процессор может быть достаточно большой.

База данных также зависит от производительности процессора при резком увеличении числа операций перераспределения конфигурации, вызванных импортом MP или изменением пространства больших экземпляров. В таких случаях служба конфигурации запрашивает новую конфигурацию агента у базы данных. Обычно это приводит к резкому увеличению нагрузки на процессор со стороны базы данных до того, как служба отправит обновления конфигурации агентам.

Хранилище данных (OperationsManagerDW)

Для базы данных OperationsManagerDW наиболее вероятным узким местом является дисковый массив. Обычно это происходит из-за вставки большого объема операционных данных. В таких случаях диски в основном выполняют операции записи. Обычно диски выполняют несколько операций чтения, за исключением обработки вручную созданных представлений отчетов, так как они выполняют запросы в хранилище данных.

Использование процессора связано с оттоком SQL Server. Пиковая загрузка процессора может возникать во время интенсивного секционирования (когда таблицы становятся большими и затем секционируются), создания сложных отчетов и большого количества оповещений в базе данных, с которым хранилище данных должно постоянно синхронизироваться.

Общие действия по устранению неполадок

Точный номер версии, выпуска и сборки Windows
Количество процессоров
Объем ОЗУ
Объем памяти, выделенный для SQL Server
Используется ли 32-разрядная версия SQL Server и включена ли функция AWE

Большую часть этих сведений можно найти в SQL Server Management Studio или в диспетчере SQL Server Enterprise. Для этого откройте окно Свойства сервера, а затем перейдите на вкладки Общие и Память. На вкладке Общие отображается версия SQL Server, версия Windows, платформу, объем ОЗУ и количество процессоров. На вкладке Память указан объем памяти, выделенный для SQL Server. В Microsoft SQL Server 2008 на вкладке Память также отображается параметр AWE.

Если используется 32-разрядная версия ОС, а объем ОЗУ составляет 4 ГБ или больше, проверьте, существуют ли параметры /pae или /3gb в файле Boot.ini. RDL-файл. Эти параметры могли быть настроить неправильно, если сервер был первоначально установлен, когда объем ОЗУ составлял 4 ГБ или менее, а затем был увеличен.

Для 32-разрядных серверов с 4 ГБ ОЗУ параметр /3gb в файле Boot.ini увеличивает объем памяти, доступный для SQL Server (с 2 ГБ до 3 ГБ). Для 32-разрядных серверов с более чем 4 ГБ ОЗУ параметр /3gb в Boot.ini может фактически ограничить объем памяти, к которому может обращаться SQL Server. Для этих систем добавьте параметр /pae в Boot.ini, а затем включите AWE в SQL Server.

В многопроцессорной системе проверьте параметр Максимальная степень параллелизма. В SQL Server 2008 этот параметр находится на вкладке Дополнительно в диалоговом окне Свойства для сервера.

Значение по умолчанию — 0, что означает, что будут использоваться все доступные процессоры. Параметр 0 подходит для серверов с восемью или меньшим количеством процессоров. Для серверов с числом процессоров больше восьми время, необходимое SQL Server для координации использования всех процессоров, может быть контрпродуктивным. Поэтому для серверов, в которых установлено более восьми процессоров обычно рекомендуется указать для параметра Максимальная степень параллелизма значение равное 8. Для этого выполните следующую команду в анализаторе SQL-запросов:
```
sp_configure 'show advanced options', 1
GO
RECONFIGURE WITH OVERRIDE
GO
sp_configure 'max degree of parallelism', 8
GO
RECONFIGURE WITH OVERRIDE
GO
```
Буквы диска, содержащие файлы хранилища данных, Operations Manager DB и Tempdb
Показывает, настроено ли исключение файлов данных и журналов SQL в программе антивируса (при наличии программы антивируса файлы базы данных Scanning SQL Server могут снижать производительность.)
Объем свободного места на дисках, содержащих хранилище данных, файлы Operations Manager DB и Tempdb
Тип хранилища (сеть SAN или локальное)
Уровень RAID (0, 1, 5, 0+1 или 1+0) для дисков, используемых SQL Server
Если используется хранилище SAN: количество шпинделей для каждого логического номера устройства, используемого SQL Server
Если преобразованный пакет управления Exchange 2007 используется или когда-либо использовался: количество строк в таблице в LocalizedText базе данных Operations Manager и EventPublisher в таблице в базе данных хранилища данных

Чтобы определить количество строк, выполните следующие команды:
```
USE OperationsManager SELECT COUNT(*) FROM LocalizedText
USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
```

Счетчики для выявления нехватки памяти

Имя счетчика производительности	Description
MSSQL$<instance>: Buffer Manager: продолжительность жизни страницы	Как долго страницы сохраняются в буферном пуле. Если это значение меньше 300 секунд, это может указывать на то, что сервер мог использовать больше памяти. Это также могло привести к фрагментации индекса.
MSSQL$<instance>: Buffer Manager: отложенная запись/с	Модуль отложенной записи освобождает место в буфере, перемещая страницы на диск. Как правило, значение не должно постоянно превышать 20 операций записи в секунду. В идеале оно должно быть близко к нулю.
Память: доступный объем в МБ	Значения ниже 100 МБ могут указывать на нехватку памяти. Нехватка памяти явно присутствует, если это значение меньше 10 МБ.
Процесс: количество байтов исключительного использования: _Total	Это объем памяти (физический и страничный), используемый всеми процессами вместе.
Процесс: рабочее множество: _Total	Это объем физической памяти, используемой всеми процессами вместе. Если значение для этого счетчика значительно ниже значения для `Process: Private Bytes: _Total`, то это указывает на то, что для процессов слишком активно используется файл подкачки. Разница более чем в 10%, вероятно, является значительной.

Счетчики для выявления повышенной нагрузки на диск

Во-первых, запишите показания следующих счетчиков физических дисков для всех дисков, содержащих файлы данных или журналов SQL:

% времени простоя: время простоя диска согласно отчету. Значение менее 50 процентов может указывать на узкое место, связанное с диском.
Средняя длина очереди диска: это значение должно быть не выше удвоенного количества шпинделей в LUN. Например, если LUN содержит 25 шпинделей, допускается значение 50. Но если у LUN только 10 шпинделей, значение 25 будет слишком большим. Можно использовать следующие формулы на основе уровня RAID и количества дисков в конфигурации RAID:
- RAID 0. Все диски в наборе RAID 0 являются рабочими
- Средняя длина< очереди дисков = # (диски в массиве) *2
- RAID 1: половина дисков являются рабочими; таким образом, только половина из них может учитываться в очереди дисков
- Средняя длина< очереди дисков = # (диски в массиве/2) *2
- RAID 10: половина дисков являются рабочими; таким образом, только половина из них может учитываться в очереди дисков
- Средняя длина< очереди дисков = # (диски в массиве/2) *2
- RAID 5. Все диски в наборе RAID 5 являются рабочими
- Средняя длина< очереди дисков = # Диски в массиве *2
- Среднее время обращения к диску в секундах: количество секунд, необходимых для выполнения одной операции ввода-вывода на диске
- Среднее время чтения с диска в секундах: среднее время чтения данных с диска в секундах
- Среднее время записи на диск в секундах: среднее время записи данных на диск в секундах
  
  Последние три счетчика в этом списке должны постоянно иметь значения около 0,020 (20 мс) или меньше и никогда не должны превышать 0,050 (50 мс). Следующие пороговые значения описаны в руководстве по устранению неполадок с производительностью SQL Server:
  - Менее 10 мс: очень хорошо
  - От 10 до 20 мс: хорошо
  - От 20 до 50 мс: медленно, требует внимания
  - Больше 50 мс: серьезное узкое место ввода-вывода
- Скорость обмена с диском (байт/с) : количество байтов, передаваемых на диск или с диска в секунду
- Обращений к диску в секунду: количество операций ввода-вывода в секунду (IOPS)
Если % времени простоя низкий (10 процентов или меньше), это означает, что диск полностью используется. В этом случае последние два счетчика в этом списке (Скорость обмена с диском (байт/с) и Обращений к диску в секунду) являются отличными индикаторами максимальной пропускной способности диска в байтах и IOPS соответственно. Пропускная способность диска SAN сильно меняется в зависимости от количества шпинделей, скорости дисков и скорости канала. Лучше всего проверить у поставщика SAN, чтобы узнать, сколько байтов и операций ввода-вывода в секунду должен поддерживать диск. Если % времени простоя низкий, а значения этих двух счетчиков не соответствуют ожидаемой пропускной способности диска, обратитесь к поставщику SAN за дополнительными сведениями об устранении неполадок.

В руководстве по устранению неполадок с производительностью SQL Server содержатся более подробные сведения об устранении неполадок производительности SQL Server.

Счетчики производительности Operations Manager

В следующих разделах описаны счетчики производительности, которые можно использовать для мониторинга и устранения неполадок с производительностью Operations Manager.

Роль сервера шлюза

Общие счетчики производительности

Эти счетчики указывают общую производительность шлюза:

Имя счетчика производительности
Процессор(_общий объем ресурсов)\% загруженности процессора
Память\% Использование выделенной памяти (в байтах)
Сетевой интерфейс(*)\Всего байт/с
ЛогическийDisk(*)\% время простоя
LogicalDisk(*)\Avg. Длина очереди дисков

Счетчики общей производительности процесса Operations Manager

Эти счетчики указывают на общую производительность процессов Operations Manager на шлюзе:

Имя счетчика производительности	Description
Process(HealthService)\% Времени процессора
Процесс (HealthService)\Байт исключительного пользования	В зависимости от того, сколько агентов управляет шлюзом, это число может отличаться и может быть несколько сотен мегабайт
Процесс(HealthService)\число потоков
Процесс(HealthService)\виртуальные байты
Процесс(HealthService)\рабочий набор
Process(MonitoringHost*)\% — время процессора
Процесс (MonitoringHost*)\Байт исключительного пользования
Процесс(MonitoringHost*)\число потоков
Процесс(MonitoringHost*)\виртуальные байты
Процесс(MonitoringHost*)\рабочий набор

Счетчики производительности Operations Manager

Эти счетчики — это определенные счетчики Operations Manager, которые указывают на производительность конкретных аспектов Operations Manager в шлюзе:

Имя счетчика производительности	Описание
Служба работоспособности\Число рабочих процессов
Группы управления службы работоспособности(*)\Активные передачи файлов	Количество передач файлов, обрабатываемых этим шлюзом. Это число показывает количество файлов пакета управления, отправляемых агентам. Если это значение остается на высоком уровне в течение длительного времени и в данный момент не существует большого объема импорта пакетов управления, эти условия могут вызвать проблему, которая влияет на передачу файлов.
Группы управления службы работоспособности(*)\Использовано очереди отправки (в %)	Размер постоянной очереди. Если это значение остается выше 10 в течение длительного времени и не падает, это означает, что резервная копия очереди создается. Это условие вызвано перегруженной системой Operations Manager, так как сервер управления или база данных слишком занята или находится в автономном режиме.
Соединитель OpsMgr\Получено байтов	Количество сетевых байтов, полученных шлюзом, то есть количество входящих байтов перед декомпрессией.
Соединитель Operations Manager\Переданные байты	Число сетевых байтов, отправленных шлюзом, то есть количество исходящих байтов после сжатия.
Соединитель Operations Manager\Получено байтов данных	Количество байтов данных, полученных шлюзом, то есть количество входящих данных после распаковки.
Соединитель Operations Manager\Передано байтов данных	Количество байтов данных, отправленных шлюзом, то есть объем исходящих данных перед сжатием.
Соединитель Operations Manager\Открытые соединения	Количество подключений, открытых на шлюзе. Это число должно совпадать с количеством агентов или серверов управления, которые напрямую подключены к шлюзу.

Роль сервера управления

Общие счетчики производительности

Эти счетчики указывают на общую производительность сервера управления:

Имя счетчика производительности
Процессор(_общий объем ресурсов)\% загруженности процессора
Память\% Использование выделенной памяти (в байтах)
Сетевой интерфейс(*)\Всего байт/с
ЛогическийDisk(*)\% время простоя
LogicalDisk(*)\Avg. Длина очереди дисков

Счетчики общей производительности процесса Operations Manager

Эти счетчики показывают общую производительность процессов Operations Manager на сервере управления:

Имя счетчика производительности	Description
Process(HealthService)\% Времени процессора
Процесс (HealthService)\Байт исключительного пользования	В зависимости от числа агентов, которыми управляет сервер управления, это значение может отличаться и может достигать несколько сотен мегабайт.
Процесс(HealthService)\число потоков
Процесс(HealthService)\виртуальные байты
Процесс(HealthService)\рабочий набор
Process(MonitoringHost*)\% — время процессора
Процесс (MonitoringHost*)\Байт исключительного пользования
Процесс(MonitoringHost*)\число потоков
Процесс(MonitoringHost*)\виртуальные байты
Процесс(MonitoringHost*)\рабочий набор

Счетчики производительности Operations Manager

Эти счетчики относятся исключительно к Operations Manager. Они показывают производительность отдельных аспектов Operations Manager на сервере управления:

Имя счетчика производительности	Описание
Служба работоспособности\Число рабочих процессов	Количество рабочих процессов, выполняемых на этом сервере управления.
Группы управления службы работоспособности(*)\Активные передачи файлов	Количество операций передачи файлов, выполняемых этим сервером управления. Это число показывает количество файлов пакета управления, отправляемых агентам. Если это значение остается на высоком уровне в течение длительного времени и в данный момент не существует большого объема импорта пакетов управления, эти условия могут вызвать проблему, которая влияет на передачу файлов.
Группы управления службы работоспособности(*)\Использовано очереди отправки (в %)	Размер постоянной очереди. Если это значение остается выше 10 в течение длительного времени и не падает, это означает, что резервная копия очереди создается. Это условие вызвано перегрузкой системы Operations Manager, так как система Operations Manager (например, корневой сервер управления) сильно занята или находится в автономном режиме.
Группы управления службы работоспособности(*)\Интенсивность отбрасывания элементов источника данных связывания	Количество элементов данных, удаленных сервером управления для действий записи данных базы данных или хранилища данных. Если это значение счетчика не `0`задано, сервер управления или база данных перегружены, так как он не может достаточно быстро обрабатывать входящие элементы данных или происходит ускорение элемента данных. Удаленные элементы данных будут повторно отправлены агентами. После завершения перегрузки или пакетной передачи эти элементы данных будут добавлены в базу данных или хранилище данных.
Группы управления службы работоспособности(*)\Интенсивность поступления элементов источника данных связывания	Количество элементов данных, полученных сервером управления для действий записи данных базы данных или хранилища данных.
Группы управления службы работоспособности(*)\Интенсивность отправки элементов источника данных связывания	Количество элементов данных, записанных сервером управления в базу данных или хранилища данных, для коллекций данных.
Соединитель OpsMgr\Получено байтов	Количество сетевых байтов, полученных сервером управления, то есть размер входящих байтов до распаковки.
Соединитель Operations Manager\Переданные байты	Количество сетевых байтов, отправленных сервером управления, то есть размер исходящих байтов после сжатия.
Соединитель Operations Manager\Получено байтов данных	Количество байтов данных, полученных сервером управления , то есть размер входящих данных после распаковки.
Соединитель Operations Manager\Передано байтов данных	Количество байтов данных, отправляемых сервером управления, то есть размер исходящих данных перед сжатием.
Соединитель Operations Manager\Открытые соединения	Количество соединений, открытых на сервере управления. Оно должно совпадать с количеством агентов или корневых серверов управления, которые напрямую подключены к нему.
Модули действия записи в БД Operations Manager(*)\Средний размер пакета	Количество элементов данных или пакетов, полученных модулями действий записи базы данных. Если это число равно 5000, происходит пакетная передача элемента данных.
Модули действий записи в БД Operations Manager(*)\Среднее время обработки	Количество секунд, требуемых модулю действий записи базы данных для вставки пакета в базу данных. Если это число часто превышает 60, возникает проблема с производительностью записи в базу данных.
Модуль записи в хранилище данных Operations Manager(*)\Среднее время обработки пакета, мс	Число миллисекунд, которое требуется для действия записи хранилища данных для вставки пакета элементов данных в хранилище данных.
Модуль записи в хранилище данных Operations Manager(*)Средний размер пакета	Среднее количество элементов данных или пакетов, полученных модулями действий записи в хранилище данных.
Модуль записи в хранилище данных Operations Manager(*)Пакетов/с	Количество пакетов, полученных модулем действий записи хранилища данных в секунду.
Модуль записи в хранилище данных Operations Manager(*)\Элементы данных за секунду	Количество элементов данных, полученных модулями действий записи в хранилище данных в секунду.
Модуль записи в хранилище данных Operations Manager(*)\Количество пропущенных элементов данных	Количество элементов данных, пропущенных модулями действий записи в хранилище данных в секунду.
Модуль записи в хранилище данных Operations Manager(*)\Общее число ошибок	Количество ошибок, произошедших в модуле действия записи в хранилище данных.

Поделиться через

Устранение неполадок с состояниями неактивности (серого цвета) агента в System Center Operations Manager

Причины серого состояния

Область проблемы

Стратегия по устранению неполадок

Сценарий 1

Разрешение для сценария 1

Сценарий 2

Разрешение для сценария 2

Сценарий 3

Разрешение для сценария 3

Сценарии 4

Разрешение для сценария 4

Устранение неполадок с производительностью сервера управления и шлюза

Сервер управления

Шлюз

Устранение проблем с производительностью SQL Server

Операционная база данных (OperationsManager)

Хранилище данных (OperationsManagerDW)

Общие действия по устранению неполадок

Счетчики для выявления нехватки памяти

Счетчики для выявления повышенной нагрузки на диск

Счетчики производительности Operations Manager

Роль сервера шлюза

Общие счетчики производительности

Счетчики общей производительности процесса Operations Manager

Счетчики производительности Operations Manager

Роль сервера управления

Общие счетчики производительности

Счетчики общей производительности процесса Operations Manager

Счетчики производительности Operations Manager

Обратная связь

Дополнительные ресурсы