探索 Microsoft 企业复原能力和危机管理 (ERCM) 计划
复原性是 Microsoft 服务可用性的关键组成部分,但即使是弹性服务也可能受到意外事件的影响。 Microsoft 的企业复原能力和危机管理 (ERCM) 计划有助于确保我们的在线服务做好从意外事件中快速恢复的准备。
ERCM 团队结构
ERCM 计划 Office (Microsoft 中的 BCM) 为业务连续性管理提供治理、监督和支持。 由 Microsoft 高级管理代表组成的相关业务连续性委员会负责促进各自业务部门的业务连续性赞助、意识、资源分配和计划责任。 这些团队共同推动整个企业符合 Microsoft 业务连续性管理 (BCM) 框架。
每个 Microsoft 业务部门都需要遵守 Microsoft ERCM 计划的目标。 为了支持 ERCM 目标,每个业务部门指定一个代表或业务连续性主管 (BCL) ,以领导和协调其业务部门内的 ERCM 实施活动。 此代表充当所有连续性和复原性问题的主要联系人。 大多数 BCL 依赖于个人团队来帮助在其业务部门内执行连续性计划。 这些人员通常为冠军、主题专家 (SME) 或项目经理。
ERCM 计划办公室维护所有联机服务(包括上游和下游依赖项)的数据库,这些服务充当我们联机服务中业务连续性信息的中央存储库。 它还记录所有相关的文档、评审和测试日期。 当需要更新或测试其 ERCM 文档或流程时,服务团队会自动收到通知。
ERCM 计划 Office 和单个服务 CCL 与 Microsoft 企业治理风险 & 合规性 (EGRC) 配合使用,以突出显示在年度计划测试和评审中标识的任何企业级风险。 以这种方式突出显示的风险会被分配一个风险评级、一个负责推动修复的所有者,并被跟踪直到解决。 ERCM 协调采用一个 Microsoft 方法,在合作伙伴团队之间建立了紧密的关系。 以下列表概述了参与与 Microsoft 365 相关的 ERCM 活动的团队:
- 企业治理风险与合规性 (EGRC)– 负责企业级风险/合规性报告以及查找符合 Microsoft 安全策略、实施过程和已认可行业标准的当前信息安全标准的团队。 管理 Microsoft 的整体风险,包括与 ERCM 相关的风险。
- ERCM 计划 Office – 负责管理 Microsoft ERCM 计划的团队,包括复原能力标准、策略、培训和指标。
- 业务连续性委员会 – 每个业务/工程职能(例如 Microsoft 365)的高级代表,负责跨组计划和整体策略的协作。
- 业务连续性潜在客户 – 每项服务中的人员在其业务部门(例如 Azure、Microsoft 365、Dynamics)中领导连续性和复原性工作。
- 业务连续性支持者 – 每个服务团队(如 Exchange Online 或 Microsoft Teams)中的个人,负责其服务团队的业务连续性和灾难恢复 (BCDR) 工作(例如,Azure Blob 存储、Exchange、Power BI)。
- 工作负载 DevOps – 服务团队中的工程师,负责功能开发、日常操作和支持实时站点问题,包括 BCDR 责任(例如事件经理、待命工程师、DevOps 团队)。
- Microsoft 365 事件通信和协调 – Microsoft 365 团队,在 Microsoft 365 服务事件期间充当内部和外部通信的中心,负责通过 Microsoft 365 服务运行状况仪表板和其他通信平台向客户通知影响服务的事件。
- 客户服务和支持 – 负责处理客户报告的问题的团队。 在发生灾难时,作为客户的第一个联系人。
BCM 框架
除了促进业务连续性方面的合作外,Microsoft 的 ERCM 计划还提供一致的 BCM 框架,该框架由整个企业的业务单位实施。 此框架解决了在事件期间维护可接受的操作级别所需的关键业务功能、服务和数据的恢复和连续性。 使用通用框架可确保存在有效、可靠、经过充分测试的计划、系统和流程,这些计划、系统和流程可用于支持业务连续性并在破坏性事件期间将不利影响降至最低。
BCM 生命周期
BCM 生命周期是 BCM 方法的核心。 此过程设计灵活,因此可由 Microsoft 的各种业务模型实现。 BCM 生命周期的各个阶段指导 Microsoft 的每个业务部门制定和实施有效的业务连续性和复原计划。
BCM 生命周期包括三个高级阶段。 它从初始评估开始,其中包括确定业务连续性计划中应包含的关键流程和目标。 规划阶段侧重于开发和实施复原和恢复策略,并将其记录在官方业务连续性计划中。 最后,功能验证测试业务连续性计划及其实现,以验证有效性并确定改进。