什么组件能被System Center Operations Manager 2012 的网络监控所监控
[原文作者 S. Halsey]
对于System Center网络监控监控了网络设备的哪些组件,一直存在很多问题。这篇文章将会涉及哪些东西被监控了以及监控适用的情况,希望能够解答部分问题。网络设备的哪些组件被监控取决于三件事:
- 在网络设备上发现了什么
- 对发现的组件是否有直接可用(不需要额外的配置)的监控
- 对发现的组件是否直接可以启用(不需要额外的配置)监控
什么组件会被发现
设备的发现会根据制造商、型号和设备系统对象标示符(OID)的不同而不同。例如一台Cisco Catalyst 3560会被发现接口、处理器、内存、风扇、电源和温度传感器。但是一台Cisco 2950只会被发现接口、处理器和内存,虽然它有可能还有其他的组件,如风扇、电源和温度传感器。其他设备可能只会被发现接口,而外围组件则不会被发现。确定哪些组件被发现的最好方法就是打开一个网络节点上的图表视图。你能在下面的图表视图中看到发现的内存(MEM)、处理器(PSR)和端口。
接口发现
并不是所有的接口都同样被发现。那些实现了接口标准MIB(RFC 2863)和MIB-II(RFC 1213)的接口比其它设备更有可能被监控。监控可以包括OperStatus,AdminStatus和性能计数器(如利用率和错误包)。那些没有实现MIB的设备可能只能发现接口的存在,或者OperStatus取决于生产厂家特定的MIB。要确定一个特定的接口是否按照标准接口进行监控,你可以从设备图表视图上的接口上打开健康资源管理器。
端口1可以使用标准MIB进行监控。在汇总监视器“Interface Status”下你可以看到对AdminStatus和OperStatus的监控。在“Performance”监视器下你可以看到“High Discard Percentage”汇总监视器,包括了检查端口输入和输出率的健康的特定监视器。然而,在下图你可以看到在这个例子中虽然接口可以使用标准MIB监控,但是监控都有被启用。
这个设备上的接口30是一个性能计数器没有被收集或者监控的例子。这个接口通过下图中汇总监视器“Interface Status”下的两个状态监视器 – AdminStatus和OperStatus来进行监控。比起端口1,在这里的“High Discard Percentage”汇总监视器下你可以看到“High Input Rate Discard”监视器不见了,说明性能计数器不会被收集。
什么组件会被监控
外围组件监控
可以在组件被发现的设备上直接(不需要额外的配置)监控处理器和内存。https://www.microsoft.com/download/en/details.aspx?displaylang=en&id=26831提供了哪些设备可以监控处理器和内存的资料。其他的外围组件,如风扇、电源、温度传感器等不会在发现时即被直接监控。通过Operations Manager控制台中的创作窗格(Authoring Pane),可以创建基于SNMP的规则和监视器来监控这些组件。
端口和接口监控
只有那些被发现连接着的接口会被监控,而不是直接监控所有的接口。这么做是为了避免未连接接口的噪音警报和不会返回有效性能计数器的额外监控开销。这意味着一个接口的默认状态是禁用所有的监控。对那些已知连接的接口的监控才会被启用。对于你想要监控的接口也可以启用监控。只有接口是Operations Manager三个组之一的成员时,它们才能被监控。这三个组都假设标准的MIB是被支持的,启用了所有的标准接口工作流程。这些组也可以启用任何生产厂商特有的接口工作流。
中继网络适配器组
这个组包括了连接两个设备的接口。当运行一次完整 的发现包含两个设备时,那么连接这两个设备的接口就会被加到这个组里并且会启用监控。
受管计算机网络适配器组组
一台直接连接到一个设备的代理计算机,会把连接的接口加到这个组里。要想让这个工作,管理组需要有代理计算机操作系统的Windows Operation System管理包,Windows Client Network Discovery管理包和Windows Server Network Discovery管理包。一次代理计算机操作系统的完整发现必须完成,包括代理网络适配器的发现。然后当运行设备的网络发现时,它就会将设备上的端口和计算机上的网络适配器连起来,并把端口加到这个组里。
关键网络适配器组
这个组可以通过Operations Manager控制台更新。你可以向这个组添加任何接口,而且启用监控。如果连接你的web服务器的接口没有被监控,那么把它添加到这个组里在它出现问题是会提示警报。
高级网络适配器组
第四个组与前面提到的三个组的表现略微不同。这个组启用了额外的接口高级工作流,而在其他组里不会被启用。这些工作流在刚开始时是被禁用的,因为它们常常是已经收集的性能计数器的副本。这些是高级性能计数器,比如Cisco冲突包,它在其他三组监控中是错误包的一部分。如果你想要看到特定的性能指标,把接口加到这个组里就是一种得到额外数据的方法。
网络监控故障排除
当你想要确定网络监控是否正确工作时,请问问以下这些问题看看什么监控在生效。
发现是否工作?
在任何监控开始之前,需要成功完成设备的发现。网络监控和发现方法具有类似的依赖性,因为它们都是基于SNMP的。确保在你指定的发现规则中的设备应该通过SNMP或者SNMP和ICMP监控。未来的博客文章会包括网络发现的故障排除。
发现了什么?
下一步要检查的是在网络设备上发现了什么。使用控制台中网络设备的图表视图查看发现了设备的什么组件。使用接口的健康资源管理查看性能计数器和状态监控是否可用。如果你的设备没有组件被发现,也没有性能计数器监控,很有可能设备不支持标准MIB。
接口监控是否启用?
检查你想要监控的接口是不是某个网络监控组的成员。你可以在控制台的创作窗格(Authoring Pane)查看它。
网络监控管理池的可用性
当网络发现规则创建时,会指定使用一个管理池监控设备。默认情况下使用所有管理服务器(All Management Servers)池,但是建议为网络监控服务器使用一个特定的池。如果网络设备在防火墙后面或者是远程的,那么就必须使用一个特定的池。在控制台的管理窗口中检查发现规则,查看哪个管理池监控设备。然后再检查管理窗口中的资源池,确保管理服务器资源池只包含那些能接触网络设备的服务器。可能有必要创建多个网络发现规则和管理服务器资源池,确保您的网络监控在正确地闻之发挥作用。
11013事件 – SNMP Get超时
当SNMP工作流因为不能及时收到设备的应答而超时时,健康服务(Health Service)会在Operations Manager日志中记录11013事件。在初始的工作流中,Operations Manager会在下一个时间间隔重试SNMP查询。在Operations Manager中有一个监视器可以检测这些事件。
日志名称:Operations Manager
来源:健康服务模块
事件ID:11013
对IP地址10.11.64.25的SNMP GET请求超时。这可能是因为设备处于脱机状态或者工作流使用了不正确的身份凭据。
可能的解决方案:
- 设备处于脱机状态,使设备联机就可以使SNMP查询成功。
- 设备过载 – 设备太忙以致无法及时响应。
- 路径中的另一个设备有问题 –数据包被错误地路由,或者在Operations Manager服务器和目标设备之间的某个设备上有一个队列。
- 设备是“远程的”,可以尝试在设备较近的位置安装一个网关并把数据报告回来,而不是从一个中心管理服务器监控那个设备。
11009事件 – SNMP Get失败
向一个网络设备查询某个特定的值时,可能会得不到。健康服务会再Operations Manager日志中记录11009事件。使用这个值的工作流都会卸载。
日志名称:Operations Manager
来源:健康服务模块
事件ID:11009
从IP地址10.11.64.68返回的SNMP GET响应错误,状态:noSuchInstance(129)。
一个或多个工作流被它影响。
OID: .1.3.6.1.2.1.10.7.2.1.2.268
工作流名称:System.NetworkManagement.MIB2_dot3.NetworkAdapter.InputPacketErrorPct
实例名称:PORT-268
可能的解决方案
- 过时的发现数据 – 上次发现之后设备被重新配置,并且Operations Manager尝试监控设备上不再存在的组件
- 如果设备不支持某些工作流,一个解决方案就是禁用使用设备上那个值的工作流。这会阻止这些工作流的加载以及未来的失败。
- 可能是一个设备本身的问题,尝试更新设备上的固件和操作系统。
- 可能是一个发现的问题 – 实例没有被正确地发现。例如Operations Manager希望监控一个性能计数器,但这是一个虚拟接口,这个接口的计数器是不存在的。对这个设备尝试运行重新发现。
[本博文仅供参考,微软公司对其内容不作任何责任担保或权利赋予]