高可用性部署

 

适用于: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

上一次修改主题: 2008-01-17

Microsoft Exchange Server 2007 中的高可用性的主要开发主题之一是挑战以前版本的 Exchange Server 中存在的高可用性实践和配置选项。通过按照 Exchange 2007 中构造的规划过程操作,您可以降低部署和运营成本,同时为最终用户提供更多服务。

Microsoft 和许多客户已将 Exchange Server 2003 中的高可用性解决方案成功地部署于生产中,从而可提供高可用性邮件环境。此外,许多客户也已成功部署了合作伙伴复制技术并创建了发生故障时可自动故障转移到第二个数据副本的解决方案。Exchange 2007 包括对 Exchange 2003 中发现的高可用性解决方案的增强,还包括新的高可用性功能,该功能不需要第三方复制技术并可降低总体解决方案的成本。支持这些改进的一些主要原因在于可以从报告以下问题的客户那里直接得到反馈结果:

  • 该解决方案的共享存储要求增加了其成本和复杂性。例如,必须从 Windows Server Catalog of Tested Products 的 Cluster Solution 类别中选择适用于整个解决方案的硬件。在 Exchange 2007 中,单一副本群集 (SCC) 维护此要求,但在群集连续复制 (CCR) 环境中配置的群集邮箱服务器没有此要求。

  • 使用邮箱数据的单一副本意味着该副本或其存储的故障非常严重,通常会导致长时间中断,有时还会导致数据丢失。

  • 由于在群集服务与 Exchange Server 之间缺少安装和管理集成,因此强制 Exchange 管理员要去了解群集概念和功能。这代表了某些 Exchange 管理员的一条重要的学习曲线。

  • 未针对最佳恢复行为而优化现成的默认配置设置。管理员需要手动重新配置默认群集资源和群集设置,从而遵循最佳实践建议。

  • 所有的 Exchange 服务(客户端访问、传输和存储)都已使用同一可用性策略加以处理,即使从体系结构来看这些服务之间存在一些明显的差异(包括不同的高可用性策略)也是如此。

  • 某些客户需要使用合作伙伴技术才能实现一种解决方案,从而维护其邮箱数据的两个副本。这些解决方案增加了部署的成本和复杂性。

Exchange 2007 中的高可用性解决方案旨在解决 Exchange 2003 高可用性方法中的所有缺陷。Exchange 2007 通过体系结构更改、新配置支持、管理模型中的更改,以及通过引进新的高可用性方法来解决这些缺陷。结果创建了一个灵活的解决方案,可使每个组织自由地选择能满足其特定需要的解决方案。

高可用性部署选项

高可用性应始终在各个组件级别以及在整个系统或解决方案的上下文中进行设计。通常,Exchange 2007 有两种类型的高可用性部署选项:

  • 带有冗余功能的单数据中心部署,在短时间中断后可以从某些故障中自动恢复。出现站点故障时,单数据中心解决方案依赖灾难恢复过程来返回操作状态。

  • 带有冗余功能的多数据中心部署,可以从大多数个别故障中自动恢复。借助多数据中心解决方案,组织可以从数据中心故障中恢复,而无需求助于灾难恢复过程。不可恢复的故障(如总站点故障)需要手动干预恢复。

以上两种部署选项将在本主题的后面详细进行论述。

单数据中心配置

适用于统一消息、集线器传输、客户端访问和边缘传输服务器角色的单数据中心配置都涉及以类似方式配置的冗余服务器。对于邮箱服务器,有三种高可用性配置,可在单个数据中心提供数据和服务可用性:SCC、CCR 和本地连续复制 (LCR)。下图说明了完整冗余的单数据中心配置的常规部署。

具备完整冗余功能的单数据中心配置

单数据中心邮箱配置

在上图中,概括说明了邮箱服务器角色的冗余配置。这是因为有多个选项可供组织使用,包括使用 SCC 和 CCR 的各种配置。

单一副本群集

Exchange 2007 中的共享存储群集配置称为单一副本群集 (SCC)。SCC 使用群集服务和共享存储来承载群集邮箱服务器。群集邮箱服务器是在整个生存期过程中在物理节点之间移动的逻辑计算机。此操作可通过群集服务功能得以实现,从而创建和管理“浮动网络标识”。浮动网络标识用作群集邮箱服务器的网络标识。Exchange 安装程序使用管理员提供的主机名和 IP 地址自动创建此网络标识。浮动网络标识根据节点可用性和维护需要,在群集中的节点之间移动。如果存储可用且两个节点中至少有一个可以正常操作,则用户可以借助这些机制来访问其邮箱数据。为了实现故障恢复,Exchange 和群集服务一同工作,使群集邮箱服务器在出现故障后在某个可用节点上联机。

以下是 Exchange 2007 中优于以前版本的 Exchange Server 中存在的共享存储群集的几项主要改进:

  • 只有邮箱服务器角色是群集感知角色,且是可以在故障转移群集中安装的唯一角色。

  • 现成的故障转移行为已经过优化,只有在故障转移具有极高的可用性时才会进行故障转移。只有在发生完全的节点故障或节点无法与客户端进行通信时,才会导致故障转移。

  • 大多数管理已从群集管理器中移出并移入 Exchange 工具中,如 Exchange 命令行管理程序。这缩短了 SCC 管理员的学习曲线。

  • 群集邮箱服务器安装已集成到安装程序中,提供与独立安装相同的体验。

下图描述了 SCC 的典型配置。SCC 最多支持八个节点群集,这些群集至少包含一个被动节点。

图 2   单一副本群集的基本体系结构

单副本群集结构

在上图中,故障转移群集中加入了两个节点。该群集使用共享磁盘来管理群集仲裁资源,这由“仲裁”磁盘表示。主动节点当前拥有用于存放群集邮箱服务器日志和数据库文件的磁盘资源。这种所有权由从主动节点到磁盘的蓝线表示。在此配置中,磁盘可通过主动节点进行访问,但不能同时通过被动节点进行访问。

至少可通过两个网络(专用和混合)来连接主动节点和被动节点。这两个网络中只有一个用于客户端通信(混合网络)。群集服务会定期检查这两个网络的通信运行状况。

有关 SCC 的详细信息,请参阅单一副本群集

群集连续复制

故名思义,单一副本群集包含单个邮箱数据副本。承载邮箱数据的存储出现故障时,不会导致自动恢复。实际上,这类故障通常会导致长时间的中断和数据丢失。在 SCC 中通过以前的群集解决方案进行的改进解决了客户对以前的高可用性解决方案提供的许多反馈。但是,SCC 仍然涉及使用共享存储所具有的复杂性。它至少有两个现成的单点故障:单个仲裁磁盘和 Exchange 数据的单个副本。在 Exchange 2007 中,存在另一种类型的高可用性配置,可以提供完全冗余,无需 Windows Server Catalog of Tested Products 的 Cluster Solutions 类别中的硬件。此解决方案称为群集连续复制 (CCR)。

CCR 使用内置的异步日志传送功能,在故障转移群集中的两个服务器之间复制邮箱数据。通过将复制和群集相集成产生了一个解决方案,该解决方案无任何单点故障,但提供从服务器故障自动恢复的功能。此外,也不需要共享存储,因而降低了部署成本和复杂性。CCR 仅支持二节点群集,而且仅支持两个数据副本(主动副本和被动副本)。下图描述了典型的 CCR 环境。

CCR 的基本部署

群集连续复制结构

上图中说明的两处重要更改缺少共享仲裁磁盘,并存在群集外第三台计算机上的文件共享。文件共享是新增的群集仲裁功能的一部分,随 Microsoft 知识库文章 921181 现已提供一项更新,用来向基于 Windows Server 2003 Service Pack 1 的服务器群集添加文件共享见证功能和可配置的群集检测信号功能中说明的更新一同介绍。更新可使群集服务使用仲裁资源,这些资源使用文件共享,而不是群集中的投票者节点。如果不进行更新,则只有仲裁选项会使用共享磁盘或传统的多数节点集配置,二者都有缺点而且会增加成本:

  • 使用共享磁盘会将共享存储的复杂性带回解决方案中。

  • 多数节点集仲裁需要三个或更多节点。在此配置中,需要将额外节点(称为投票者节点)充当群集中的投票者节点。

有关 CCR 的详细信息,请参阅群集连续复制

本地连续复制

CCR 提供数据和服务的完整冗余,而 SCC 提供服务冗余。对于需要数据冗余而不是服务冗余的那些组织,存在本地连续复制 (LCR)。LCR 不是群集解决方案,因而不提供服务可用性。下图描述了典型的 LCR 环境。

本地连续复制的基本部署

本地连续复制的基本结构

LCR 使用前面的 CCR 部分中介绍的内置连续复制技术在本地计算机上创建存储组的第二个副本(称为被动副本)。计算机必须是独立(而不是群集)邮箱服务器。在 LCR 环境中,管理员决定哪些存储组含有被动副本,并为同一台服务器上的被动副本配置第二个副本。

使用 LCR 时,管理员必须显式决定哪些存储组含有被动副本。管理员可以决定创建现有存储组的被动副本,或在创建过程中为新的存储组启用 LCR。管理员必须为已启用 LCR 的那些存储组的日志和数据库文件配置第二个位置。

在 LCR 中,需要手动激活第二个副本。在 LCR 中没有故障转移,因为故障转移是群集操作,而 LCR 不是群集解决方案。相反,管理员必须决定主动副本何时不再可行,然后手动激活被动副本,使其成为新的主动副本。激活被动副本的过程简单且快捷。

管理员可以随时决定启用 LCR 并创建现有数据库的被动副本,或者管理员可以在创建新的数据库时立即启用 LCR。启用 LCR 后,可以使用某个过程(称为种子设定)来创建基准副本,然后启动复制(日志传送)。最佳实践是在磁盘或与主动副本隔离的存储套件中查找被动副本。这种实践将同时发生多个故障的概率降至最低程度。LCR 对邮箱服务器上的资源有影响。邮箱服务器执行与连续复制关联的所有处理,而且服务器的容量规划必须考虑到这一点。主动副本上的输入/输出 (I/O) 负载是有限的,因为被动副本的大多数 I/O 活动与被动副本的日志和数据库文件关联。

LCR 支持使用 Exchange 感知卷影复制服务 (VSS) 来备份被动副本。在通过适当的方式将包含主动副本的磁盘卷与被动副本隔离开时,不带有基于硬盘的 VSS 支持的 VSS 备份是一个很好的选项。从被动副本执行备份时,会从主动副本的磁盘卷中卸载备份 I/O。由于被动副本不需要对客户端进行实时响应,因此可以适应与使用基于软件的 VSS 书写器关联的成本。此外,根据容量规划,还可以在具备 LCR 的服务器上扩展备份窗口,这是很可行的办法。主要因素就是在整个备份窗口中维持备份代理的 CPU 负载。

被动副本表示损坏和数据故障的第一道防线。使用 LCR 时,第一个故障恢复可能具有时间相对较短的服务级别协议 (SLA)。双重故障需要从备份进行还原。使用此模型时,双重故障的 SLA 可能时间要长得多。因此,每周完全备份和每日增量备份的制度是可行且建议的策略。此策略还可以减少移至备份媒体的总内容。

总之,对于需要从数据故障或损坏中快速恢复但允许服务器由于计划或未计划的原因中断的组织,LCR 是一个极好的选项。LCR 具有下列优点:

  • 从活动数据库损坏或故障中快速恢复(两步)。

  • 管理员选择,用于保护最需要保护的用户。

  • 在任意大小的邮箱服务器和所有的产品中都可用。

  • 对活动数据库和日志 I/O 的影响最小。

  • 能够从活动数据库和日志卷中卸载备份 I/O。

  • 能够减少移动到备份媒体的总数据量,同时扩展备份窗口。

  • 通过使用 Exchange 管理控制台或 Exchange 命令行管理程序在 Exchange 级别概括说明管理。

有关 LCR 的详细信息,请参阅本地连续复制