你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure VMware 解决方案的业务连续性和灾难恢复

此企业规模方案有助于提高业务连续性和灾难恢复(BCDR)。 Azure VMware 解决方案提供私有云,其中包含从专用裸机 Azure 基础结构生成的 VMware vSphere 群集。 该解决方案至少提供三个 ESXi 主机,每个群集最多提供 16 个主机。 所有预配的私有云都有 VMware vCenter 服务器、VMware vSAN、VMware vSphere 和 VMware NSX-T 数据中心。 若要了解Azure VMware 解决方案的服务级别协议(SLA),请参阅适用于Azure VMware 解决方案的 SLA。

无论是本地还是Azure VMware 解决方案,都应考虑各种 BCDR 因素来准备灾难。 可靠的 BCDR 计划旨在保护公司免受数据丢失、财务损失和停机的影响(如果发生中断事件)。 以下决策树显示了可用于Azure VMware 解决方案的各种 BCDR 选项。

显示业务连续性和灾难恢复流程图的示意图。

注意

试点轻型环境是使用最少的配置设置的,只有核心组件才能支持一组关键的应用程序。 但是,它可以横向扩展并生成更多主机,以在发生故障转移时占用大部分负载。 对于计算和内存密集型 Azure VMware 解决方案工作负荷的灾难恢复,辅助站点需要相同的存储量。

业务连续性设计注意事项

  • Azure VMware 解决方案中的 VMware vSAN 存储策略在实现时考虑存储可用性。 当群集具有 3 到 5 个主机时,可以容忍的主机故障数,而数据丢失等于 1。 当群集有 6 到 16 个主机时,在数据丢失之前可容许的主机故障数为两个。 VMware vSAN 存储策略可以基于每个 VM 应用。 虽然这些策略是默认策略,但可以修改策略以满足自定义要求。 有关详细信息,请参阅 Azure VMware 解决方存储理念

  • vSphere 高可用性默认在Azure VMware 解决方案上启用。 高可用性允许策略为单个节点保留计算和内存容量。 此预留可确保有足够的容量来重启Azure VMware 解决方案群集中另一个节点中的工作负荷。

  • 拉伸群集的高可用性:使用 Azure VMware 解决方案,在标准 vSphere 群集中部署的 ESXi 主机传统上驻留在单个 Azure 可用性区域中,并受 vSphere 高可用性的保护。 但是,工作负荷不会受到可用性区域故障的保护。 为了防止故障,单个 vSAN 群集可以跨越两个单独的可用性区域,称为 vSAN 拉伸群集。 有关详细信息,请参阅 部署 vSAN 拉伸群集

  • 为 VMware vSphere 虚拟机(VM)选择经过验证的备份解决方案,例如Microsoft Azure 备份服务器合作伙伴备份解决方案

  • 有关合作伙伴备份解决方案中支持的功能的信息,请参阅相应的合作伙伴文档。

    注意

    Azure VMware 解决方案私有云 vCenter Server 和 HCX Manager(如果已启用)配置按每日备份计划进行,NSX 配置按小时备份计划。 备份至少保留三天。

  • Azure VMware 解决方案组件(例如 vCenter Server、NSX-T Manager 或 HCX Manager)是 Azure 管理备份的托管服务。 若要从备份还原, 请创建 Azure 支持请求

业务连续性设计建议

  • 使用 Azure 备份 服务器备份Azure VMware 解决方案私有云。 有关详细信息,请参阅使用 Azure 备份 备份 VMware vSphere VM。 支持的部署拓扑包括 MARS 代理Data Protection Manager。 每个部署拓扑都有自己的支持矩阵、约束和限制。

  • 将 Azure 备份服务器部署在同 Azure VMware 解决方案私有云相同的 Azure 区域。 这种部署方法可降低流量成本、简化管理并保留主/辅拓扑。 请参阅 Azure 区域部署最佳做法的 Azure 区域选择指南

  • Azure 备份可以部署为 Azure 基础结构即服务(IaaS)VM,也可以在Azure VMware 解决方案私有云中部署。 强烈建议将其部署到Azure VMware 解决方案私有云之外。 在 Azure 虚拟网络中部署备份,并确保此虚拟网络已连接到连接到Azure VMware 解决方案私有云的同一 ExpressRoute。 在Azure VMware 解决方案私有云外部运行备份服务器有助于减少 vSAN 消耗,因为 vSAN 是Azure VMware 解决方案私有云中的有限容量资源。

    Azure 备份部署为 Azure IaaS VM 的服务器。

    显示部署为 Azure IaaS VM 的Azure 备份服务器的关系图。

    Azure 备份部署为 Azure VMware 解决方案 VM 的服务器。

    显示部署为Azure VMware 解决方案 VM 的Azure 备份服务器的关系图。

  • 使用应用程序性能要求清单到达正确的容量和磁盘类型,例如 HDD、SSD 或 Ultra。 考虑支持用于备份操作的磁盘类型和容量的 Azure IaaS VM SKU。

  • 使用Azure 备份服务器容量规划器来确定每个服务器、存储和 IOPS 要求的数量。 在容量规划器中提供“工作负荷总大小(GB)*”值时,请使用要备份的 vCenter 中所有 VM 的“已用存储”与“已分配存储”之间的中间值。

  • 存储池与 Azure 备份 服务器配合使用,以提高磁盘 IOPS/吞吐量。 在备份服务器上使用 分层存储 进行增强操作。 在 MABS 卷上将 DisableWriteAutoTiering 配置值设置为 1,以便整个性能层可用于存储 ReFS 元数据。

  • 确定要在 Azure 备份 服务器上运行的并行备份作业和还原操作的数量。 目前支持 8 个并行备份作业。 测量在多个运行中备份和还原任务关键型工作负荷所需的时间。 验证备份和还原时间是否符合 Azure 备份 服务器的 RPO 和 RTO 要求。 确保 AVS vSAN 数据存储有足够的容量来保存还原的备份。

  • 如果Azure 备份服务器上运行任何防病毒/反恶意软件,请为Azure 备份服务器文件和文件夹添加必要的防病毒异常。 在应用程序备份(例如 SQL、Sharepoint 等)的任何Azure VMware 解决方案 VM 上使用 DPM 保护代理时,请禁用对dpmra.exe实时监视。

  • 在托管Azure 备份服务器的子网上配置适当的 NSG(网络安全组)规则,以允许从 Azure VMware 解决方案 中受保护的 VM 上运行的 DPM 保护代理的网络通信。 DPM 保护代理与 1024 和 65535 之间的任何动态端口上的 Azure 备份 服务器通信。

  • 目前,Azure 备份服务器不支持Azure VMware 解决方案私有云的跨区域还原。 如果需要跨区域Azure VMware 解决方案恢复,请参阅合作伙伴备份解决方案灾难恢复部分

灾难恢复设计注意事项

  • 将业务需求与应用程序的恢复时间目标(RTO)、容量和恢复点目标(RPO)保持一致。 使用最合适的复制技术相应地规划和设计这些目标。 例如,使用 SQL AlwaysOn 可用性组本机复制 SQL 数据库,或使用 VMware 站点恢复管理器等灾难恢复工具。

  • 确定受保护Azure VMware 解决方案私有云的目标灾难恢复站点。 此站点会影响适合环境的灾难恢复工具。 例如,如果要将Azure VMware 解决方案工作负荷恢复到 Azure 本机 IaaS 虚拟机,则可以考虑使用 Azure Site RecoveryZerto

  • 确定Azure VMware 解决方案工作负荷的子集在发生灾难恢复事件时需要保护。 考虑根据优先级对工作负荷进行分类:适用于业务关键型工作负荷的 P0 和 P1、P2、P3,对于其他重要但对业务运营来说并不那么重要。 客户的业务连续性计划定义了优先级,这有助于控制与灾难恢复实施相关的成本。

  • 在大多数情况下,开发、测试或 UAT 等非生产环境无需故障转移到辅助站点。 应在辅助站点运行试点灯,减少生产和关键工作负荷的容量,以节省成本。 对于更多容量,可以在灾难恢复事件期间横向扩展以将 ESXi 主机添加到群集。

  • 对于试点轻型部署,请确保已保护辅助站点所需的所有主机配额,这样就不必在完全横向扩展期间等待所需的容量。请参阅Azure VMware 解决方案的请求主机配额。

  • 在辅助环境中设置功能域角色,例如 Active Directory 域控制器。

  • JetStream 和 Zerto 等合作伙伴的解决方案已在 Azure VMware 解决方案 上正式发布和验证。 它们支持大多数灾难恢复方案,并且可以通过接近零的 RPO 提供更快的恢复。

  • VMware 站点恢复管理器、Jetstream 和 Zerto 支持从第三方位置迁移到Azure VMware 解决方案。

  • VMware HCX 也是经济高效的灾难恢复解决方案。 但是,由于手动业务流程,不建议对大型生产工作负荷使用此方法。

  • 若要在不同 Azure 区域中Azure VMware 解决方案私有云之间的灾难恢复,需要在两条后端 ExpressRoute 线路之间启用 ExpressRoute Global Reach。 当 VMware SRM 和 VMware HCX 等解决方案需要时,这些线路会创建主到辅助私有云连接。

  • 若要在同一 Azure 区域中Azure VMware 解决方案私有云之间进行灾难恢复,需要启用Azure VMware 解决方案互连。 它创建Azure VMware 解决方案私有云的管理与工作负荷网络之间的路由链接,以便在云之间进行通信。 确保每个私有云中的路由 IP 地址空间是唯一的,并且不会重叠。

  • 使用灾难恢复时,可以在主要 Azure 区域和次要 Azure 区域中使用相同的源 IP 地址空间。 但是,它需要额外的设计和工程工作。

    • 保留相同的 IP 地址:可以使用与主站点相同的源 IP 地址恢复辅助Azure VMware 解决方案站点上的虚拟机。 对于此方法,请在辅助站点中创建隔离的 VLAN 或 NSX-T 段,并确保这些隔离的 VLAN 或段都未连接到环境。 修改灾难恢复路由,以反映子网已移动到辅助站点和新 IP 地址位置。 虽然此方法有效,但也会在实现完全自动化的灾难恢复时创建工程开销。

    • 使用不同的 IP 地址:还可以对恢复的 VM 使用不同的 IP 地址。 如果 VM 移动到辅助站点,VMware 站点中的恢复计划恢复管理器详细说明自定义 IP 映射。 选择此映射以更改 IP 地址。 在新的 NSX-T 段中启动 VM,并分配新的 IP 地址。 不同灾难恢复解决方案的工具可能有所不同。

  • 部分和完整灾难恢复方案的重要因素:

    • VMware 站点恢复管理器支持部分恢复,仅恢复一部分虚拟机和完全灾难恢复。 在区域 1 和区域 2 中的两个Azure VMware 解决方案站点之间,所有或部分 VM 都可以进行故障转移。

    • 恢复的 VM 的源 IP 地址保留要求决定了是否可以进行部分与完整灾难恢复。

    • 为了在站点恢复管理器中执行部分灾难恢复时维护源 IP 地址,子网网关需要迁移到辅助站点。

    注意

    主动-备用灾难恢复不需要第 2 层拉伸。

灾难恢复设计建议

  • 在主站点和辅助站点中使用Azure VMware 解决方案时,请使用 VMware 站点恢复管理器。 主站点和辅助站点也分别被称为受保护站点和恢复站点。

    连续 vSphere 复制的高级概述。

    显示两个 Azure VMware 解决方案站点之间连续 vSphere 复制的高级示例的示意图。

    主站点和辅助站点之间的连续 vSphere 复制的详细示例。

    显示两个 Azure VMware 解决方案站点之间连续 vSphere 复制的详细示例的示意图。

  • 对于业务关键型应用程序,Zerto 和 JetStream 可用作Azure VMware 解决方案私有云的灾难恢复解决方案。 JetStream 和 Zerto 基于连续数据保护(CDP),使用用于 I/O 筛选的 VMware vSphere API(VAIO)框架,可实现最少或接近数据丢失。 它还使用最少的资源实现经济高效的灾难恢复。

  • 如果 Azure IaaS 虚拟机是Azure VMware 解决方案私有云的灾难恢复目标,请使用 Azure Site RecoveryZerto

  • 在每个相应的灾难恢复解决方案中使用自动恢复计划,最大程度地减少手动输入。 使用 VMware 站点恢复管理器或合作伙伴解决方案时,这些计划非常有用。 恢复计划可将计算机汇集到恢复组中,以便进行故障转移。 然后,它通过创建可以故障转移的独立单元来帮助定义系统恢复过程。

  • 设置烟雾测试或灾难恢复演练至少每年一次,以确保恢复计划按预期工作。 所选灾难恢复工具的业务流程功能决定了运行这些演练所涉及的工作量级别。

  • 使用 地缘政治区域对 作为辅助灾难恢复环境。 区域对的一些优势是优先区域恢复、顺序更新、物理隔离和数据驻留。

  • 保留地址空间不同,以避免两个站点之间的 IP 地址重叠。 例如,可以用于 192.168.0.0/16 区域 1 和 10.0.0.0/16 区域 2。

  • 在不同区域的主私有云和辅助私有云之间使用 ExpressRoute Global Reach 连接。 有关更多网络注意事项和建议,请参阅相关设计区域

后续步骤

了解 Azure VMware 解决方案初始部署的注意事项和建议,以及操作自动化指南。