排查 System Center Operations Manager 中的灰色代理状态问题

项目
12/14/2024

本文介绍如何解决 System Center Operations Manager（OpsMgr）中代理、管理服务器或网关不可用或灰显的问题。

原始产品版本： Microsoft System Center 2012 Operations Manager
原始 KB 数： 2288515

代理、管理服务器或网关可以具有以下状态之一，如“监视”窗格中代理名称和图标的颜色指示。

State	外观	说明
Healthy	绿色的选中标记	代理或管理服务器在正常运行。
严重	红色复选标记	代理或管理服务器存在问题。
未知	灰色代理名称，灰色复选标记	在管理服务器上观察受监视计算机运行状况服务的运行状况服务观察程序没有接收到代理的检测信号。运行状况服务观察程序在之前接收检测信息，并且该状态报告为正常。这也意味着管理服务器不再接收来自代理的任何信息。如果运行代理的计算机未运行或存在连接性问题，则可能会出现此问题。
未知	绿色圆圈，无复选标记	已发现项的状态未知。没有可用于此特定发现项的监视器。

灰色状态的原因

代理、管理服务器或网关可能会因以下任何原因不可用：

检测信号故障
配置无效
系统工作流失败
Operations Manager 数据库或数据仓库性能问题
管理服务器或网关服务器性能问题
网络或身份验证问题
运行状况服务未运行

问题范围

在开始排查代理灰显问题之前，应先了解 Operations Manager 拓扑，然后定义问题的范围。以下问题可能有助于定义问题的范围：

有多少代理受到影响？
代理是否在同一网络段中遇到问题？
代理是否向同一管理服务器报告？
代理进入和保持灰色状态的频率是多少？
通常如何从这种情况中恢复（例如，重启代理运行状况服务，清除缓存，依赖于自动恢复）？
是否为这些代理生成检测信号故障警报？
此问题是否发生在一天的特定时间？
如果将这些代理故障转移到另一个管理服务器或网关，此问题是否仍然存在？
何时开始出现此问题？
是否对代理、管理服务器或网关或管理组进行了任何更改？
受影响的代理是否为 Windows 群集系统？
运行状况服务状态文件夹是否从防病毒扫描中排除？

故障排除策略

故障排除策略由哪个组件处于非活动状态、该组件位于拓扑中的哪个位置以及问题的广度决定。考虑以下情况：

如果向特定管理服务器或网关报告的代理不可用，故障排除应从管理服务器或网关级别开始。
如果向特定管理服务器报告的网关不可用，故障排除应从管理服务器级别开始。
对于无代理系统、网络设备和 Unix 和 Linux 服务器，故障排除应从监视这些对象的代理、管理服务器或网关开始。
故障排除通常从位于不可用组件上方的级别开始。

方案 1

只有少数代理受此问题影响。这些代理向不同的管理服务器报告。代理将定期保持不可用。尽管你能够清除代理缓存以帮助暂时解决问题，但问题在几天后会递归。

方案 1 的解决方法

若要解决此方案中的问题，请执行以下步骤：

将相应的修补程序应用于受影响的操作系统。
从防病毒扫描中排除代理缓存。有关详细信息，请参阅与 Operations Manager 相关的防病毒排除建议。
停止运行状况服务。
清除代理缓存。
启动运行状况服务。

方案 2

只有少数代理受此问题影响。这些代理向不同的管理服务器报告。代理会持续保持非活动状态。虽然可以清除代理缓存，但这并不能解决问题。

方案 2 的解决方法

若要解决此方案中的问题，请执行以下步骤：

确定运行状况服务是否已打开，并且当前正在管理服务器或网关上运行。如果运行状况服务已停止响应，请以服务挂起模式生成 ADPlus 转储，以帮助确定问题的原因。有关详细信息，请参阅如何使用 ADPlus.vbs 排查“挂起”和“崩溃”的问题
检查代理上的 Operations Manager 事件日志以查找以下任何事件：

事件 ID: 1102
事件源: HealthService
事件说明：
无法初始化为 ID 为“%3”的实例运行的规则/监视器“%4”，并且不会加载。管理组 "%1"

事件 ID: 1103
事件源: HealthService
事件说明：
摘要：%2 规则/监视器失败并卸载，其中 %3 已达到阻止自动重新加载的失败限制。管理组 "%1"。这是仅限摘要的事件，请参阅其他对卸载的规则/监视器进行了说明的事件。

事件 ID: 1104
事件源: HealthService
事件说明：
工作流“%4”中的 RunAs 配置文件，无法解析 ID 为“%3”的实例“%3”。不会加载工作流。管理组 "%1"

事件 ID: 1105
事件源: HealthService
事件说明：
工作流“%4”中运行实例“%3”的 RunAs 配置文件的类型不匹配：“%2”。不会加载工作流。管理组 "%1"

事件 ID: 1106
事件源: HealthService
事件说明：
无法访问工作流“%4”中的纯文本 RunAs 配置文件，该配置文件针对 ID：“%2”实例“%3”运行。不会加载工作流。管理组 "%1"

事件 ID: 1107
事件源: HealthService
事件说明：
在工作流“%4”中考虑运行 ID 为：“%2”的实例“%3”的 RunAs 配置文件。不会加载工作流。请将一个帐户与该配置文件相关联。管理组 "%1"

事件 ID: 1108
事件源: HealthService
事件说明：
无法解析运行方式配置文件“%7”中指定的帐户。具体而言，该帐户在安全引用替代 "%6" 中使用。 %n%n 此状况可能是因帐户未配置为分发到此计算机造成的。要解决这一问题，你需要打开下面指定的运行方式配置文件，找到帐户条目 SSID 所指定的帐户条目，然后选择将此帐户分发到此计算机（如果适用），或更改此配置文件中的设置从而使目标对象不使用指定的帐户。 %n%n管理组: %1 %n运行方式配置文件: %7 %nSecureReferenceOverride 名称: %6 %nSecureReferenceOverride ID: %4 %n对象名称: %3 %n对象 ID: %2 %n帐户 SSID: %5

事件 ID：4000
事件源: HealthService
事件说明：
监视主机无响应或已崩溃。主机失败的状态代码为 %1。

事件 ID：21016
事件源：OpsMgr 连接器
事件说明：
OpsMgr 无法将通信通道设置为 %1，并且没有故障转移主机。当 %1 可用且允许来自此计算机的通信时，通信将恢复。

事件 ID：21006
事件源：OpsMgr 连接器
事件说明：
OpsMgr 连接器无法连接到 %1：%2。错误代码为 %3（%4）。请验证是否存在网络连接，服务器正在运行并注册了其侦听端口，并且没有防火墙阻止发到目标的流量。

事件 ID：20070
事件源：OpsMgr 连接器
事件说明：
OpsMgr 连接器已连接到 %1，但在身份验证发生后立即关闭连接。此错误最可能的原因是：代理无权与服务器通信，或者服务器未收到配置。检查服务器上的事件日志，看是否有 20000 个事件，这表示未认可的代理正在尝试连接。

事件 ID：20051
事件源：OpsMgr 连接器
事件说明：
无法加载指定的证书，因为证书当前无效。验证系统时间是否正确，并在必要时重新颁发证书%n 证书有效开始时间： %1%n 证书有效结束时间： %2

事件源：ESE
事件类别：事务管理器
事件 ID：623
说明：HealthService （<PID>）实例><（“name>”<）的版本存储已达到其最大大小<> Mb。长时间运行的事务可能会阻止清理版本存储，并导致其大小增大。更新将被拒绝，直到长时间运行的事务完全提交或回滚。可能的长时间运行的事务：
SessionId： <value>
会话上下文： <值>
会话上下文 ThreadId： <值>。
清理： <值>
如果找到以下特定事件，请遵循以下准则：
- 事件 1102 和 1103：这两个事件指示某些工作流无法加载。如果这些工作流是核心系统工作流，则这两个事件可能会导致问题。在这种情况下，请专心解决这些事件。
- 事件 1104、1105、1106、1107 和 1108：这些事件可能导致事件 1102 和 1103。通常情况下，这是由配置错误的运行方式帐户导致的。例如，运行方式帐户配置为与错误的类一起使用，或者未配置为分发到代理。
- 事件 4000：此事件指示Monitoringhost.exe进程崩溃。如果此问题是由 DLL 不匹配或缺少注册表项引起的，则可以通过重新安装代理来解决该问题。如果问题仍然存在，请尝试使用以下方法解决此问题：
  - 运行进程监视器捕获，直到进程崩溃。有关详细信息，请参阅进程监视器 v3.53。
  - 在崩溃模式下生成 ADPlus 转储。有关详细信息，请参阅如何使用 ADPlus.vbs 排查“挂起”和“崩溃”的问题
- 事件 ID 21006：此事件指示代理与管理服务器之间存在通信问题。如果代理使用证书进行相互身份验证，请验证证书是否未过期，并且代理正在使用正确的证书。如果使用 Kerberos，请验证代理是否可以与 Active Directory 通信。如果身份验证正常工作，这可能意味着代理中的数据包未到达管理服务器或网关。尝试建立从代理到管理服务器的端口 5723 的 telnet。此外，在重现通信失败时，在代理与管理服务器之间运行同时的网络跟踪。这可以帮助你确定数据包是否到达管理服务器，以及两个组件之间的任何设备是尝试优化流量还是正在删除一些数据包。有关详细信息，请参阅使用网络监视器收集数据。
- 事件 ID 623：此事件通常在管理服务器或代理计算机管理许多工作流的大型 Operations Manager 环境中发生。有关详细信息，请参阅 Operations Manager 控制台中的一个或多个管理服务器及其托管设备。

方案 3

向特定管理服务器或网关报告的所有代理都不可用。

方案 3 的解决方法

若要解决此方案中的问题，请执行以下步骤：

尝试确定管理服务器或网关正在监视的工作负荷类型。此类工作负荷可能包括网络设备、跨平台代理、综合事务、Windows 代理和无代理计算机。
确定运行状况服务是在管理服务器还是网关上运行。
确定管理服务器是否在维护模式下运行。如有必要，请从维护模式中删除服务器。
检查代理上的 Operations Manager 事件日志，了解方案 2 中列出的任何事件。如果有事件 ID 21006，请遵循方案 2 的解决方法中提到的相同准则。此外，在这种情况下，此事件指示管理服务器或网关无法与其父服务器通信。对于网关，父服务器可以是任何管理服务器。（请参阅中的步骤 3方案 2 的解决方法。
在 Operations Manager 事件日志中检查以下事件。这些事件通常表示管理服务器上存在性能问题，或者Microsoft托管 OperationsManager 或 OperationsManagerDW 数据库的 SQL Server：

事件 ID: 2115
事件源: HealthService
事件说明：
管理组 %1 中的绑定数据源已将项发布到工作流，但在 %5 秒内未收到响应。这表示工作流的性能或功能问题。%n 工作流 ID ： %2%n 实例： %3%n 实例 ID ： %4%n

事件 ID：5300
事件源: HealthService
事件说明：
本地运行状况服务不正常。实体状态更改流因等待确认而停止。 %n%nManagement 组： %2 %nManagement 组 ID： %1

事件 ID: 4506
事件源: HealthService
事件说明：Operations Manager
由于管理组“%1”中 ID 为“%3”的规则“%2”中运行的规则“%2”中存在过多未完成的数据，因此删除了数据。

事件 ID: 31551
事件源：运行状况服务模块
事件说明：
无法在数据仓库中存储数据。将重试该操作。%rException '%5'： %6 %n %n%n 或更多工作流受此影响。 %n%nWorkflow name： %2 %nInstance name： %3 %nInstance ID： %4 %nManagement group： %1

事件 ID：31552
事件源：运行状况服务模块
事件说明：
未能将数据存储在数据仓库中。%rException '%5'： %6 %n%n%n 或更多工作流受此影响。 %n%nWorkflow name： %2 %nInstance name： %3 %nInstance ID： %4 %nManagement group： %1

事件 ID：31553
事件源：运行状况服务模块
事件说明：
数据已写入数据仓库暂存区域，但后续操作之一处理失败。%rException '%5'： %6 %n %n%n 一个或多个工作流受此影响。 %n%nWorkflow name： %2 %nInstance name： %3 %nInstance ID： %4 %nManagement group： %1

事件 ID：31557
事件源：运行状况服务模块
事件说明：
未能从数据仓库数据库获取同步进程状态信息。将重试该操作。%rException '%5'： %6 %n %n%n 或更多工作流受此影响。 %n%nWorkflow name： %2 %nInstance name： %3 %nInstance ID： %4 %nManagement group： %1
由于运行方式帐户配置不正确或缺少运行方式帐户的权限，也可能记录事件 ID 3155X。

注意

若要排查管理服务器或网关性能和 SQL Server 性能问题，请参阅方案 4 部分的解决方法。

应用场景 4

报告给特定管理服务器的所有代理在正常状态和灰色状态之间间歇性地交替。或者，环境中的所有代理在正常状态和灰色状态之间间歇性地交替。

方案 4 的解决方法

若要解决此问题，请先确定问题的原因。临时服务器不可用的常见原因包括：

代理的父服务器暂时处于脱机状态。
代理将管理服务器充斥着操作数据，例如警报、状态、发现等。这可能会导致在 Operations Manager 数据库和 Operations Manager 服务器上增加系统资源的使用。
网络中断导致父服务器和代理之间的临时通信失败。
发生了管理包（MP）更改。在 Operations Manager 控制台中，这些更改需要 Operations Manager 配置和 MP 重新分发到代理。如果更改影响较大的代理基础，这可能会导致在 Operations Manager 数据库和 Operations Manager 服务器上使用系统资源增加。

在这些方案中进行故障排除的关键是了解服务器不可用的持续时间及其发生时间。这将帮助你快速缩小问题的范围。

排查管理服务器和网关性能问题

Management 服务器

在配置更新突发（由 MP 导入和发现引起的）期间，典型的瓶颈是 Operations Manager 安装磁盘 I/O，第一个是 CPU，第二个是 Operations Manager 安装磁盘 I/O。管理服务器负责将配置文件转发到目标代理。

在操作数据收集中，瓶颈通常是由 CPU 引起的。磁盘 I/O 也可能达到最大容量，但这种可能性不大。管理服务器负责解压缩和解密传入操作数据，并将其插入到操作数据库中。它还会在接收操作数据后将确认 (ACK) 发回代理或网关，并使用磁盘队列临时存储这些传出 ACK。

网关

网关同时受 CPU 绑定和 I/O 绑定。当网关中继大量数据时，CPU 和 I/O 操作的使用率可能会很高。大多数 CPU 使用率是由传入数据的解压缩、压缩、加密和解密以及数据传输引起的。网关和代理接收的所有数据都存储在磁盘上的永久性队列中，由网关运行状况服务读取和转发到管理服务器。这可能会导致磁盘使用率过高。当网关暂时脱机时，此用法可能很重要，然后必须处理代理生成的累积代理数据，并尝试在网关处于脱机状态时发送。

若要排查这种情况中的问题，请针对每个受影响的管理服务器或网关收集以下信息：

确切的 Windows 版本和内部版本号
处理器数目
RAM 量
包含运行状况服务 State 文件夹的驱动器
防病毒软件是否已配置为排除运行状况服务存储

注意

有关详细信息，请参阅与 Operations Manager 相关的防病毒排除建议。
运行状况服务状态使用的驱动器的 RAID 级别（0、1或1+050+1）
用于 RAID 的磁盘数
是否在阵列控制器上启用电池支持的写入缓存

排查 SQL Server 性能问题

操作数据库（OperationsManager）

对于 OperationsManager 数据库，最可能的瓶颈是磁盘阵列。如果磁盘阵列未达到最大 I/O 容量，则下一个最可能的瓶颈是 CPU。数据库有时会经历运行缓慢和操作数据风暴（事件、警报、性能数据或状态更改的发生率较高，且持续相对较长的时间）。短突发通常不会导致任何较长时间的显著延迟。

在操作数据插入期间，数据库磁盘主要用于写入。 CPU 使用由 SQL Server 流失引起。如果存在大型复杂查询、大量数据插入以及大型表整理（默认情况下，发生在午夜），则可能会出现此情况。通常，即使是大型事件和性能数据表的整理也不会消耗过多的 CPU 或磁盘资源。但是，对于大型表来说，警报和状态更改表的整理可能会占用大量 CPU。

当数据库处理由 MP 导入或大型实例空间更改导致的配置重新分发突发时，它也会受到 CPU 限制。在这些情况下，配置服务会查询数据库以获取新的代理配置。这通常会导致在服务将配置更新发送到代理之前，数据库上出现 CPU 峰值。

数据仓库（OperationsManagerDW）

对于 OperationsManagerDW 数据库，最可能的瓶颈是磁盘阵列。这通常因插入大量操作数据而发生。在这些情况下，磁盘大多忙于执行写入。通常，磁盘只执行少量的读取，但处理手动生成的报告视图除外，因为这些视图在数据仓库上运行查询。

CPU 使用由 SQL Server 流失引起。在发生大量分区活动（当表变大，然后被分区时）、生成复杂报表和数据库中出现大量警报期间可能会出现 CPU 峰值，数据仓库必须与它们不断同步。

常规故障排除

若要排查这种情况中的问题，请针对每个受影响的管理服务器或网关收集以下信息：

确切的 Windows 版本和内部版本号
处理器数目
RAM 量
分配给 SQL Server 的内存量
SQL Server 是否为 32 位且已启用 AWE

可以在 SQL Server Management Studio 或 SQL Server Enterprise Manager 中找到大部分此信息。若要执行此操作，请打开服务器的“属性”窗口，然后选择“常规”和“内存”选项卡。 “常规”选项卡包括 SQL Server 版本、Windows 版本、平台、RAM 量和处理器数量。 “内存”选项卡包括分配给 SQL Server 的内存。在 Microsoft SQL Server 2008 中，“内存”选项卡还包括 AWE 选项。

如果 OS 为 32 位，RAM 为 4 GB 或更大，请检查 Boot.ini 中是否存在 /pae 或 /3gb 开关。。如果服务器最初安装时的 RAM 小于等于 4 GB，并且后来升级了 RAM，则这些选项可能配置不正确。

对于具有 4 GB RAM 的 32 位服务器，Boot.ini 中的 /3gb 开关增加了 SQL Server 可以寻址的内存量（从 2 GB 增加到 3 GB）。对于具有 4 GB 以上 RAM 的 32 位服务器，Boot.ini 中的 /3gb 开关实际上可能会限制 SQL Server 可以寻址的内存量。对于这些系统，请将 /pae 开关添加到 Boot.ini，然后在 SQL Server 中启用 AWE。

在多处理器系统上，检查“最大并行度(MAXDOP)”设置。在 SQL Server 2008 中，此选项位于服务器的“属性”对话框中的“高级”选项卡上。

默认值为 0，这意味着将使用所有可用的处理器。对于具有 8 个或更少处理器的服务器，设置 0 是合适的。对于具有 8 个以上处理器的服务器，SQL Server 协调所有处理器的使用所需的时间可能会达不到预期目标。因此，对于具有 8 个以上处理器的服务器，通常应将“最大并行度”设置为值“8” 。若要执行此操作，请在 SQL 查询分析器中运行以下命令：
```
sp_configure 'show advanced options', 1
GO
RECONFIGURE WITH OVERRIDE
GO
sp_configure 'max degree of parallelism', 8
GO
RECONFIGURE WITH OVERRIDE
GO
```
包含数据仓库、Operations Manager DB 和 Tempdb 文件的驱动器号
防病毒软件是否配置为排除 SQL 数据和日志文件（使用防病毒软件扫描 SQL Server 数据库文件可能会降低性能。）
包含数据仓库、Operations Manager DB 和 Tempdb 文件的驱动器上的可用空间量
存储类型（SAN 或本地）
SQL Server 使用的驱动器的 RAID 级别（0、1、5、0+1 或 1+0）
如果使用 SAN 存储：SQL Server 使用的每个 LUN 上的主轴数
如果正在使用转换的 Exchange 2007 管理包或曾经使用过：Operations Manager 数据库中的表和EventPublisher数据仓库数据库中的表中的行LocalizedText数

若要确定行数，请运行以下命令：
```
USE OperationsManager SELECT COUNT(*) FROM LocalizedText
USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
```

用于确定内存压力的计数器

性能计数器名称	说明
MSSQL$<实例>：缓冲区管理器：页生存期	页在缓冲池中保留的时间。如果此值低于 300 秒，则可能表示服务器可能会使用更多内存。它也可能由索引碎片导致。
MSSQL$<instance>：Buffer Manager：延迟写入数/秒	延迟编写器通过将页面移动到磁盘来释放缓冲区中的空间。通常，该值不应持续超过每秒 20 次写入。理想情况下，它将接近于零。
Memory: Available Mbytes	值低于 100 MB 可能指示内存压力。当此量小于 10 MB 时，明显存在内存压力。
Process: Private Bytes: _Total	这是所有进程组合使用的内存（物理和页）量。
Process: Working Set: _Total	这是所有进程组合使用的物理内存量。如果此计数器的值显著低于 `Process: Private Bytes: _Total` 的值，则表示进程分页过多。差异超过 10% 可能表示显著。

用于确定磁盘压力的计数器

为包含 SQL 数据或日志文件的所有驱动器捕获这些物理磁盘计数器：

空闲时间百分比：报告的磁盘空闲时间。低于 50% 的任何值可能指示存在磁盘瓶颈。
平均磁盘队列长度：此值不应超过 LUN 上的主轴数的两倍。例如，如果 LUN 有 25 个主轴，则值 50 是可接受的。但是，如果 LUN 有 10 个主轴，则值 25 就太高了。可以根据 RAID 配置中的 RAID 级别和磁盘数量使用以下公式：
- RAID 0：所有磁盘正在 RAID 0 集内工作
- 平均磁盘队列长度<= # （数组中的磁盘） *2
- RAID 1：一半的磁盘正在工作；因此，只有一半磁盘可以计入磁盘队列
- 平均磁盘队列长度<= # （数组中的磁盘数/2） *2
- RAID 10：一半的磁盘“正在工作”；因此，只有一半磁盘可以计入磁盘队列
- 平均磁盘队列长度<= # （数组中的磁盘数/2） *2
- RAID 5：所有磁盘正在 RAID 5 集内工作
- 数组中的平均磁盘队列长度<= # 磁盘 *2
- 平均磁盘传输速率(秒)：完成一个磁盘 I/O 所需的秒数
- 平均磁盘读取速率(秒)：从磁盘读取数据花费的平均时间，以秒为单位
- 平均磁盘写入速率(秒)：将数据写入磁盘花费的平均时间，以秒为单位
  
  此列表中最后三个计数器的值应始终大约为 0.020（20 毫秒）或更小，且永远不超过 0.050（50 毫秒）。以下是 SQL Server 性能故障排除指南中记录的阈值：
  - 小于 10 毫秒：非常好
  - 10-20 毫秒：可以
  - 20-50 毫秒：缓慢，需要注意
  - 大于 50 毫秒：严重的 I/O 瓶颈
- 磁盘字节数/秒：每秒传入或传出磁盘的字节数
- 磁盘传输次数/秒：每秒输入和输出操作次数 (IOPS)
当“空闲时间百分比”较低（10% 或更少）时，这意味着磁盘已被充分利用。在这种情况下，此列表中的最后两个计数器（“磁盘字节数/秒”和“磁盘传输次数/秒”）将详细指示驱动器的最大吞吐量，单位分别为字节和 IOPS 。 SAN 驱动器的吞吐量变化很大，具体取决于主轴数、驱动器速度和通道速度。最佳选择是咨询 SAN 供应商，了解驱动器应支持的字节和 IOPS 数。如果“空闲时间百分比”很低，并且这两个计数器的值不满足驱动器的预期吞吐量，请联系 SAN 供应商进行故障排除。

SQL Server 性能故障排除指南提供了有关 SQL Server 性能故障排除的更深入见解。

Operations Manager 性能计数器

以下部分介绍可用于监视和排查 Operations Manager 性能问题的性能计数器。

网关服务器角色

总体性能计数器

这些计数器指示网关的总体性能：

性能计数器名称
Processor(_Total)\% Processor Time
Memory\% Committed Bytes In Use
Network Interface(*)\Bytes Total/sec
LogicalDisk\\% 空闲时间
LogicalDisk\\Avg. Disk Queue Length

Operations Manager 进程的通用性能计数器

这些计数器指示网关上的 Operations Manager 进程的总体性能：

性能计数器名称	说明
Process（HealthService）\% 处理器时间
Process(HealthService)\Private Bytes	根据此网关所管理的代理数，此数字可能会有所不同，并且可能为几百兆字节
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process（MonitoringHost*）\% 处理器时间
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set

Operations Manager 特定性能计数器

这些计数器是 Operations Manager 特定的计数器，用于指示 Operations Manager 在网关上的特定方面的性能：

性能计数器名称	说明
Health Service\Workflow Count
Health Service Management Groups(*)\Active File Uploads	此网关正在处理的文件传输数。这表示正在上传到代理的管理包文件数。如果此值长时间保持在高水平，并且在指定时刻没有导入很多管理包，这些情况可能会产生影响文件传输的问题。
Health Service Management Groups(*)\Send Queue % Used	永久性队列的大小。如果此值长时间大于 10，并且没有减少，则表明该队列已备份。这种情况是由重载的 Operations Manager 系统引起的，因为管理服务器或数据库太忙或脱机。
OpsMgr Connector\Bytes Received	网关收到的网络字节数，即解压缩前传入字节数。
OpsMgr Connector\Bytes Transmitted	网关发送的网络字节数，即压缩后的传出字节数。
OpsMgr Connector\Data Bytes Received	网关接收的数据字节数，即解压缩后传入的数据量。
OpsMgr Connector\Data Bytes Transmitted	网关发送的数据字节数，即压缩前传出的数据量。
OpsMgr Connector\Open Connections	在网关上打开的连接数。此数目应与直接连接到网关的代理或管理服务器的数量相同。

管理服务器角色

总体性能计数器

这些计数器指示管理服务器的总体性能：

性能计数器名称
Processor(_Total)\% Processor Time
Memory\% Committed Bytes In Use
Network Interface(*)\Bytes Total/sec
LogicalDisk\\% 空闲时间
LogicalDisk\\Avg. Disk Queue Length

Operations Manager 进程的通用性能计数器

这些计数器指示管理服务器上 Operations Manager 进程的总体性能：

性能计数器名称	说明
Process（HealthService）\% 处理器时间
Process(HealthService)\Private Bytes	此数字可能因管理服务器管理的代理数量而异，可能为数百兆字节。
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process（MonitoringHost*）\% 处理器时间
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set

Operations Manager 特定性能计数器

这些计数器是 Operations Manager 特定的计数器，用于指示管理服务器上 Operations Manager 特定方面的性能：

性能计数器名称	说明
Health Service\Workflow Count	在此管理服务器上运行的工作流数。
Health Service Management Groups(*)\Active File Uploads	此管理服务器正在处理的文件传输数。这表示正在上传到代理的管理包文件数。如果此值长时间保持在高水平，并且在指定时刻没有导入很多管理包，这些情况可能会产生影响文件传输的问题。
Health Service Management Groups(*)\Send Queue % Used	持久队列的大小。如果此值长时间大于 10，并且没有减少，则表明该队列已备份。这种情况是由于 Operations Manager 系统（例如根管理服务器）太忙或脱机而导致 Operations Manager 系统重载。
Health Service Management Groups(*)\Bind Data Source Item Drop Rate	管理服务器为数据库或数据仓库数据收集写入操作删除的数据项数。如果没有此计数器值 `0`，则管理服务器或数据库会过载，因为它无法足够快地处理传入的数据项，或者因为数据项突发发生。已删除的数据项将由代理重新发送。重载或突发情况结束后，这些数据项将插入数据库或数据仓库。
Health Service Management Groups(*)\Bind Data Source Item Incoming Rate	管理服务器为数据库或数据仓库数据收集写入操作接收到的数据项数。
Health Service Management Groups(*)\Bind Data Source Item Post Rate	管理服务器写入数据库或写入数据仓库以进行数据收集写入操作的数据项数。
OpsMgr Connector\Bytes Received	管理服务器接收的网络字节数，即解压缩前传入字节的大小。
OpsMgr Connector\Bytes Transmitted	管理服务器发送的网络字节数，即压缩后传出字节的大小。
OpsMgr Connector\Data Bytes Received	管理服务器接收的数据字节数，即解压缩后传入数据的大小。
OpsMgr Connector\Data Bytes Transmitted	管理服务器发送的数据字节数，即压缩前传出数据的大小。
OpsMgr Connector\Open Connections	在管理服务器上处于打开状态的连接数。此值应和直接与其连接的代理或根管理服务器的数量相同。
OpsMgr database Write Action Modules(*)\Avg. Batch Size	数据库写入操作模块接收到的数据项或批处理数。如果此数字为 5000，表示出现数据项突发。
OpsMgr DB Write Action Modules(*)\Avg. Processing Time	数据库写入操作模块将一个批处理插入数据库所需的时间（以秒为单位）。如果此数字通常大于 60，表示出现数据库插入性能问题。
OpsMgr DW Writer Module(*)\Avg. Batch Processing Time, ms	数据仓库写入操作将一批数据项插入数据仓库所需的时间（以毫秒为单位）。
OpsMgr DW Writer Module(*)\Avg. Batch Size	数据仓库写入操作模块接收到的数据项或批处理的平均数量。
OpsMgr DW Writer Module(*)\Batches/sec	数据仓库写入操作模块每秒接收的批处理数。
OpsMgr DW Writer Module(*)\Data Items/sec	数据仓库写入操作模块每秒接收的数据项数。
OpsMgr DW Writer Module(*)\Dropped Data Item Count	数据仓库写入操作模块删除的数据项数。
OpsMgr DW Writer Module(*)\Total Error Count	数据仓库写入操作模块中出现的错误数。

通过

排查 System Center Operations Manager 中的灰色代理状态问题

灰色状态的原因

问题范围

故障排除策略

方案 1

方案 1 的解决方法

方案 2

方案 2 的解决方法

方案 3

方案 3 的解决方法

应用场景 4

方案 4 的解决方法

排查管理服务器和网关性能问题

Management 服务器

网关

排查 SQL Server 性能问题

操作数据库（OperationsManager）

数据仓库（OperationsManagerDW）

常规故障排除

用于确定内存压力的计数器

用于确定磁盘压力的计数器

Operations Manager 性能计数器

网关服务器角色

总体性能计数器

Operations Manager 进程的通用性能计数器

Operations Manager 特定性能计数器

管理服务器角色

总体性能计数器

Operations Manager 进程的通用性能计数器

Operations Manager 特定性能计数器

反馈

其他资源

通过

排查 System Center Operations Manager 中的灰色代理状态问题

灰色状态的原因

问题范围

故障排除策略

方案 1

方案 1 的解决方法

方案 2

方案 2 的解决方法

方案 3

方案 3 的解决方法

应用场景 4

方案 4 的解决方法

排查管理服务器和网关性能问题

Management 服务器

网关

排查 SQL Server 性能问题

操作数据库 （OperationsManager）

数据仓库（OperationsManagerDW）

常规故障排除

用于确定内存压力的计数器

用于确定磁盘压力的计数器

Operations Manager 性能计数器

网关服务器角色

总体性能计数器

Operations Manager 进程的通用性能计数器

Operations Manager 特定性能计数器

管理服务器角色

总体性能计数器

Operations Manager 进程的通用性能计数器

Operations Manager 特定性能计数器

反馈

其他资源

操作数据库（OperationsManager）