了解警报相关性

上一次修改主题: 2015-03-09

关联引擎是 MicrosoftExchange Server 2010 监视管理包的核心。开发关联引擎的目的是大幅度减少管理包所引发的警报数量。

在 Exchange 2007 管理包中,当监视器的状态从绿色变为红色时,就一定会引发警报。这种类型的警报将在 Exchange Server 2010 管理包中关闭。取代它的是由关联引擎处理警报。它会处理来自管理包监视器的数据,然后确定是否引发警报。关联引擎可帮助监视 Exchange 环境的管理员仅关注可能需要采取措施的警报。

体系结构

关联引擎是一种独立的 Windows 服务,该服务使用 Operations Manager SDK 界面首先检索运行状况模型(或实例空间),然后处理状态更改事件。通过在内存中维护运行状况模型并处理状态更改事件,关联引擎能够基于系统状态确定何时引发警报。

关联引擎

此图表明,为响应问题,多个监视器更改了状态,并且代理将对应的状态更改事件转发到根管理服务器 (RMS)。一旦 RMS 收到这些事件,便会由关联引擎进行处理,关联引擎可能通过 RMS 软件开发工具包 (SDK) 界面引发警报。然后,可以在 Operations Manager 控制台上看到此警报。

警报分类

Exchange Server 2010 监视管理包警报分为以下三类。使用以下指南可了解这些警报分类。

  • 关键运行状况指示器 (KHI)   KHI 问题会影响服务的运行状况。大多数警报都归为此类别(例如,“邮箱数据库已卸除。”)

  • 非服务影响 (NSI)   NSI 监视器用于检测可能会影响系统中某些用户,但不会影响所有用户的问题。两个用户具有相同的代理地址就是一个很好的 NSI 情况示例 – 发送到此地址的邮件将作为未送达邮件被退回,但整个传输系统在其他方面不会受到影响。

  • 检查   检查监视器用于记录在解决问题时可能相关,但不一定指示明显或现有系统故障的信息。“CPU 活动大于 90% 持续了 5 分钟”就是一个检查问题示例 – 可能有进程不当占用 CPU 周期,或者服务器可能已重新启动,对正常系统活动有影响。这些监视器显示在警报属性的“警报上下文”字段以及运行状况资源管理器中。不会对检查监视器引发警报。

注释注意:
引发单个检查监视器警报时,将不会更新状态。但是,可能会根据对每个组件的当前检查监视器警报的聚合来更新状态。

警报严重性

Exchange Server 2010 监视管理包警报也按警报严重性做如下分类:

  • 错误警报   错误警报表示需要立即注意的严重问题。

  • 警告警报   警告警报表示存在可能导致将来出现问题的情况。

  • 信息性警报   信息性警报不是由 Exchange 2010 管理包引发的。

关联因素

关联引擎采取的操作是取决于多种因素,其中包括以下因素:

监视器状态更改事件   监视器从事件日志邮件、性能计数器阀值和 PowerShell 任务输出事件等源的 Exchange 环境中收集诊断信息。当监视器检测到问题已发生或已清除(即从红色更改为绿色,或者从绿色更改为红色)时,将注册状态更改事件。当无法联系 Exchange 服务器或 Exchange 服务器变得可用时,监视器也会注册状态更改。最后,当 Exchange Server 被置于维护模式或脱离维护模式时,监视器将注册状态更改。在 Exchange 2007 管理包中,当监视器的状态从绿色变为红色时,就会引发警报。在 Exchange 2010 管理包中,警报不会由监视器状态更改自动引发。关联引擎确定是否引发警报。Exchange 2010 管理包包括了每个监视器的警报。这将使监视人员可以使用操作控制台来访问管理包中每个监视器的属性。即使在监视器不自动生成警报的情况下,他们也可以在“公司知识”字段中为指定监视器输入特定于公司的注释。

运行状况模型   由 Exchange 2010 管理包导入到 Operations Manager 中的类层次结构包括了定义整个系统中的组件依存关系的类关系。定义这些依存关系可帮助 Exchange 2010 管理包了解 Exchange 组织的运行状况。例如,如果 Exchange 2010 管理包将 Active Directory 标识为脱机,则它还会报告 Exchange 邮件功能无法完全正常运行。

计时   关联引擎的运行间隔为 90 秒。如果多个监视器同时发生状态更改事件,关联引擎将等待以了解是否检测到可能与故障相关的其他内容,以便对根本原因做出最有效的决定。

关联算法

关联引擎过程概述

  1. 关联引擎与 Operations Manager SDK 服务相连,以便下载运行状况模型的层次结构和实例状态。这种情况只有在服务启动时或在错误要求此操作时根据需要发生。

  2. 关联引擎会查询 Operations Manager 中与 Exchange 管理包中的实体有关的最新状态更改事件。

  3. 如果检测到新的非服务影响状态更改,则关联引擎将对这些更改引发警报。

  4. 关联引擎会隔离处于红色状态的所有关键运行状况指示器监视器的数据。关联引擎会将该数据按逻辑分组,按每个进程的依存关系显示进程。这些分组通常称为“关键运行状况指示器链”。每个链指示依存关系失败并且影响一个或多个相关进程的情况。

  5. 关联引擎会为每个关键运行状况指示器链引发一个警报。关联引擎引发的每个警报都标识了每个问题的根本原因。

  6. 关联引擎会等待 90 秒,然后从第 2 步重新开始。

有关关联引擎进程的其他信息

  • 如果关键运行状况指示器链包括错误监视器和警告监视器,则无论根本原因监视器的类是什么,都会将警报作为错误引发。例如,如果顶级进程定义了一个错误监视器来捕获故障情况,并且该错误监视器与依存关系中的警告监视器关联,则会对依存关系引发警报。但是,它将被标记为错误而不是警告。

  • 并非所有类关系都用于警报关联。有关关联引擎使用的特定关系,请参阅本指南后面的附录类层次结构

  • 包括所有检查监视器在内的关键运行状况指示器链包含出现在最终警报的属性中的“警报上下文”字段中。这将使管理员可以检查与指定警报关联的监视器。必须检查从依存关系监视器引发的警报,以确定警报所提及的特定故障。

什么受警报关联影响以及什么不受警报关联影响

了解关联引擎影响什么以及不影响什么很重要。

以下功能会由于增加关联引擎而在 Exchange 2010 管理包中变得不同:

  • 发生状态更改时,监视器不会自动发出警报。这使得关联引擎可以确定要引发的最佳警报。

  • 关联引擎停止时,Exchange 2010 管理包不会引发与您的 Exchange 环境运行状况对应的警报。如果关联引擎停止了,将引发常规警报以通知关联引擎没有运行。

增加关联引擎不会改变以下功能:

  • 覆盖功能仍将按预期运行。您可以按照今天执行的操作方式更改特定的值或禁用监视器。

  • 关联引擎会跳过处于维护模式的监视器和对象。因为监视器不会引发状态更改事件,因此不需要特别的考虑事项。

  • 其他管理包不受关联引擎的存在的影响。

操作说明

关联引擎必须在内存中保留管理组的实例空间,以确定相关的监视器和警报。因此,拥有的 Exchange Server 和数据库越多,关联引擎需要的内存就越多。

对于每个受监视的 Exchange Server,关联引擎需要大约 5 MB 内存。有一些因素可导致此数字的增减,但这对了解托管该服务的服务器的资源影响是一个良好的基础。

自动重置 Exchange 2010 管理包中的事件监视器

在 Exchange 2010 管理包中,关联引擎会自动重置大多数事件监视器。向这些监视器添加了自动重置以后,问题再次发生时就不会被遗漏了。下表列出了不会自动重置的事件监视器。

监视器名称

日记代理在加载配置信息时发生了错误。

故障导致邮件留在传递队列中。

自动发现服务配置不安全。若要修复此问题,请禁用对自动发现虚拟目录的匿名访问。

Exchange 无法创建日志文件目录。在更正故障的原因之前,不会生成日志文件。在事件描述中指定错误的源组件和原因。

Exchange 无法创建新日志文件。在更正故障的原因之前,不会生成日志文件。在事件描述中指定错误的源组件和原因。

在分拣目录中发现了只读文件。

Microsoft Exchange Transport 服务检测到了严重存储错误,并通过移动数据库执行了自动恢复操作。

文件分发服务:为脱机通讯簿从 Active Directory 读取安全描述符失败。

ExBPA 警告。

ExBPA 错误。

无法移动邮箱。

DsProxy DLL 是必要的,但无法加载。

无法初始化 NSPI 代理的性能计数器。

本地数据库副本的索引已损坏。请通过使用 Update-MailboxDatabaseCopy cmdlet 和 -CatalogOnly 参数为目录重新设定种子。

无法为 Microsoft Exchange 邮件提交服务加载性能计数器。相关性能对象被命名为 MSExchangeMail 提交。

本地拓扑服务器不属于任何 Active Directory 站点。

Microsoft 邮件提交服务在尝试载入拓扑信息时遇到异常。

Exchange 拓扑发现未在 Active Directory 中找到本地 Exchange Server。

故障导致邮件留在提交队列中。

一个数据库副本遇到了严重的丢失刷新错误,这可能会影响数据库的所有副本。

一个活动数据库副本遇到了严重的丢失刷新错误,这可能会影响数据库的所有副本。

一个本地数据库副本遇到了严重的丢失刷新错误,这可能会影响数据库的所有副本。

数据库引擎为数据库消耗了 99% 的“B 树”资源(使用了最多 87696 个中的 87048 个)。

删除数据库副本的增量种子重新设定文件失败。

删除数据库副本的连续复制文件失败。

单页还原进程已开始更正数据库副本中的错误。

单页还原进程已成功更正数据库副本中的错误。

删除数据库的日志文件失败。文件在使用中,或者服务没有足够的权限。

指定的关联间隔值小于最小允许值。

指定的关联时间窗口值小于最小允许值。