了解可用性监视和容量规划
即使是最可复原的联机服务也需要足够的资源才能有效运行。 当意外的高需求可能会影响 Microsoft Online Services 的可用性时,尤其如此。 Microsoft 使用广泛的可用性监视和频繁的容量规划来确保即使在紧急情况下,我们的服务仍可供客户使用。
可用性监视
Microsoft 实施广泛的可用性监视,以确保我们的所有联机服务都具有以最佳方式运行的必要资源。 服务团队使用自动日志和遥测分析,提醒待命工程师注意可用性问题。 例如,服务团队监视处理器和内存利用率,以发现可能威胁服务运行状况的峰值。 除了常规可用性监视,服务团队还根据其服务的性质选择适当的可用性指标。 例如,SharePoint Online (SPO) 监视核心客户功能,包括主页可用性,以及上传和下载文档的功能。
在许多情况下,通过预配额外资源或将流量重新路由到不受影响的服务组件,服务自动响应威胁可用性的问题。 服务团队工程师通过调查和解决任何潜在问题响应警报。 指示潜在安全事件的可用性问题将上报给特定于工作负荷的安全响应团队,以便使用安全事件响应过程进行解决。
容量规划
容量规划可帮助服务团队分配支持 Microsoft Online Services 可用性所需的资源。 作为 Microsoft ERCM 计划的一部分,需要定期进行容量规划,以确保故障转移容量一致。 在季度评审以及需要额外容量评审的紧急情况下,服务团队查看容量数据。
容量规划的原始数据由每个服务团队维护,包括系统处理、内存和硬件容量等指标。 计划评审使用系统当前容量的模型,并根据紧急情况下的预计需求进行测试。 如果模型指示容量存在差距,则系统容量的建议更改将提交给服务团队领导进行评审。 在服务团队工程师实施之前,批准更改将合并到新模型中。
作为容量规划的一部分,每个服务团队都指定一个容量项目经理 (PM),负责收集性能数据和维护系统容量的准确模型。 除了协调季度容量评审外,容量项目经理 还作为自动可用性监视警报的主要联系人。 容量项目经理可确保通知相应的服务团队人员,以便他们可以立即响应,解决可用性问题。