你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Microsoft 社区培训的可靠性

Microsoft 社区培训是一种由 Azure 提供支持的云解决方案,可以高质量、高效率地提供大规模、范围广泛的培训计划。 借助社区培训,各种规模和类型的组织可以为其内部和外部社区运行大规模培训计划。 社区可能包括一线工作人员、外聘工作人员、合作伙伴生态系统、志愿者网络和计划受益者。

本文介绍了社区培训中的可靠性支持,并涵盖了具有可用性区域的区域复原能力以及灾难恢复和业务连续性。 有关 Azure 中可靠性原则的更详细概述,请参阅 Azure 可靠性

可用性区域支持

可用性区域是每个 Azure 区域内在物理上独立的数据中心组。 当一个区域发生故障时,服务可以故障转移到其余区域中的一个。

有关 Azure 中可用性区域的详细信息,请参阅什么是可用性区域?

社区培训使用 Azure 可用性区域在 Azure 区域中提供高可用性和容错能力。 社区培训提供控制平面和数据平面可用性区域支持:

  • 控制平面在主要可用性区域中是区域冗余的。

  • 数据平面可以是区域性的,也可以是区域冗余的,具体取决于根据需要选择哪一种。 但是,强烈建议选择区域冗余部署,以避免数据丢失,并在区域服务中断期间保持服务可用性。

先决条件

  • 以下社区培训 SKU 支持可用性区域:

    • 标准(用户规模较小)
    • 高级(用户规模大)
  • 社区培训仅在配对区域中受支持。 每个次要区域都部署了区域性配置。 下表显示了支持社区培训可用性区域的所有区域及其配对区域。

主要区域 配对区域
UKSouth UKWest
澳大利亚东部 澳大利亚东南部
EastUS 美国西部
EastUS2 CentralUS
NorthEurope 西欧
WestUS3 EastUS
SwedenCentral SwedenSouth

区域故障转移支持

社区培训使用许多依赖项 Azure 服务,例如应用服务和 Azure SQL。 选择区域冗余部署时,社区培训还会创建这些基础 Azure 服务资源的区域性冗余产品/服务。 如果一个区域出现故障,所有资源(包括依赖项资源)都会故障转移到正常的区域之一。

创建启用可用性区域的资源

社区培训仅在创建实例时提供可用性区域配置。 如果要在创建实例后更改可用性区域配置,则需要创建新实例。

区域故障体验

  • 区域。 在区域范围的服务中断期间,社区培训可能会发生全部或部分服务中断。 可用的程度取决于多种因素,例如整个数据中心是否关闭,或者特定依赖项服务是否不再在该区域中可用。

  • 区域冗余。 在区域范围的服务中断期间,不会对预配的资源产生任何影响。 但是,你应该做好与这些资源的通信短暂中断的准备。 在区域关闭的情况下,客户端通常会收到 409 错误代码,同时重试逻辑尝试按适当的间隔重新建立连接。 新请求将定向到正常节点,对用户没有任何影响。 在区域范围的中断期间,用户能够创建新资源并成功缩放现有资源。

灾难恢复和业务连续性

灾难恢复 (DR) 是指从会导致故障时间和数据丢失的高影响事件(例如自然灾害或部署失败)中恢复。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始考虑创建灾难恢复计划之前,请参阅设计灾难恢复策略的建议

在 DR 方面,Microsoft 使用责任共担模型。 在共担责任模型中,Microsoft 会确保基线基础结构和平台服务可用。 同时,许多 Azure 服务不会自动复制数据,也不会从失败区域回退以交叉复制到另一个启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 大多数在 Azure 平台即服务 (PaaS) 产品/服务上运行的服务都提供支持 DR 的功能和指导,你可以使用特定于服务的功能来支持快速恢复,从而帮助制定 DR 计划。

Microsoft 社区培训团队管理社区培训的整个灾难恢复过程。 灾难恢复既不是主动-主动,也不是主动-被动,而是从 Azure 服务的最新可用备份进行恢复。 社区培训团队从数据备份手动在配对区域中创建所有资源。

注意

社区培训灾难恢复仅在配对区域中受支持。

多区域地理位置中的灾难恢复

  • 在区域性灾难中,控制平面手动将故障转移到配对区域。 在发生故障转移之前,部分服务会出现降级。 故障转移后,将支持只读操作,直到灾难区域重新联机。 在重新联机后,服务将手动故障回复到原始区域,所有操作都将恢复。 恢复点目标 (RPO) 预计为 10 分钟;恢复时间目标 (RTO) 为 24 小时。

  • 对于数据平面,社区培训提供 Microsoft 托管灾难恢复。 若要使用托管灾难恢复,需要在 Azure 中创建社区培训实例期间启用灾难恢复。 启用灾难恢复后,Microsoft 会将存储和数据库的备份保留在配对区域中。 恢复点目标 (RPO) 预计为 12 小时;恢复时间目标 (RTO) 为 48 小时。

注意

RTO 取决于数据库和存储大小、配对区域之间的延迟。 数据库或存储 VM 容量 (SKU)。 RPO 取决于基础 Azure 资源,例如 Azure SQL 和 Azure 存储。 有关 RTO 和 RPO 的详细信息,请参阅灾难恢复概述

服务中断检测、通知和管理

当社区培训健康状况检查检测到任何区域的任何服务中断时,Microsoft 会请求你同意故障转移到配对区域。 Microsoft 会通知你在灾难恢复过程中哪些功能可用。 Microsoft 收到你的同意后,社区培训团队即可启动灾难恢复过程。

重要

在主要区域正常运行之前,学习者将无法使用音频/视频功能。 建议在主站点正常运行之前避免媒体上传操作。

容量和主动灾难恢复复原能力

Microsoft 及其客户根据责任共担模式运作。 在任何区域关闭后,不仅社区培训实例已迁移到配对区域,而且所有产品和客户工作负载也会迁移到配对区域。 此过程可能会导致配对区域或数据中心中的资源短缺。 因此,灾难恢复可用性取决于基础 Azure 资源的可用容量。

后续步骤