你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

可靠性设计评审清单

此清单提供了一组建议,用于评估体系结构设计中的可靠性、复原能力和故障恢复策略。 若要确保可靠性,请确定工作负荷的最佳基础结构和应用程序设计。 根据映射到可用性和可恢复性目标指标的业务要求做出这些决策。

若要实现可靠的设计,请彻底考虑设计中的决策点,并了解这些决策如何影响工作负荷。 此清单和随附指南提供了资源来帮助做出这些决策。 在整个工作负荷设计、开发和作生命周期中,使工作负荷可靠性成为核心考虑因素。

清单

以专注于可靠性的方式处理设计,以帮助确保设计可复原、可管理且可重复的工作负荷。 如果不包括可靠性做法并考虑权衡,设计可能会面临风险。 仔细考虑清单中涵盖的所有要点,以灌输系统的成功信心。

  代码 建议
RE:01 将工作负荷设计重点放在简单性和效率上。 使用实际方法避免不必要的复杂性,同时满足业务目标和要求。
RE:02 识别和评价用户和系统流。 根据业务需求,使用关键性等级来优先排序流程。
RE:03 使用故障模式分析(FMA)识别工作负荷中的潜在故障。 确定依赖项和故障点,并为这些故障制定缓解策略。
RE:04 为工作负荷定义可靠性和恢复目标。 利用这些目标来指导您的设计,并作为您的健康模型的基础。
RE:05
RE:05
RE:05
添加不同级别的冗余,尤其是对于关键流,以帮助实现可靠性目标。 考虑冗余基础结构组件,例如计算和网络,以及解决方案的多个实例。
RE:06
RE:06
在应用程序、数据和基础结构级别实施及时可靠的缩放策略。 根据实际或预测的使用模式制定缩放策略,并最大程度地减少手动干预。
RE:07 通过实施自我保存和自我修复措施来增强工作负荷的复原能力。 使用内置功能和完善的云模式来帮助工作负荷在事件期间和从事件恢复期间保持正常运行。
RE:08 通过应用混沌工程原则来测试复原能力和可用性方案。 通过进行主动故障和模拟负载测试,确保优雅降级实现和扩展策略的有效性。
RE:09 实现结构化、测试和记录的业务连续性和灾难恢复(BCDR)计划, 与恢复目标保持一致。 计划必须涵盖所有组件和整个系统。
RE:10 度量和建模解决方案的运行状况信号。 从整个工作负荷以及单个组件和密钥流中持续捕获运行时间和其他可靠性数据。

后续步骤

建议查看可靠性权衡,以探索其他概念。