可靠性建议清单
此清单提供了一组建议,供您在体系结构设计中用于评估可靠性、复原能力和故障恢复策略。 若要确保可靠性,请确定工作负载的最佳基础结构和应用程序设计。 根据与可用性和可恢复性目标指标对应的业务需求做出这些决策。
若要实现可靠的设计,请在设计中充分考虑决策点,并了解这些决策如何影响工作负载。 此清单和随附的指南提供了资源来帮助您做出这些决策。 在整个工作负载设计、开发和操作生命周期中,将工作负载可靠性作为一个核心考虑因素。
清单
以可靠性为重点进行设计,以帮助确保设计出可复原、可管理和可重复的工作负载。 如果不考虑可靠性做法并考虑利弊,则设计可能会面临风险。 仔细考虑清单中涵盖的所有要点,以增强系统成功的信心。
代码 | 建议 | |
---|---|---|
☐ | 回复:01 | 设计工作负载以对齐业务目标,并避免不必要的复杂性或开销。 使用实用且平衡的方法做出设计决策,以提供所需的结果。 将您的设计包含在必要条件中,以减少低效和潜在问题。 |
☐ | 回复:02 | 确定用户流和系统流并进行评级。 根据业务要求使用关键度级别来确定流优先级。 |
☐ | 回复:03 | 使用故障模式分析 (FMA) 来识别解决方案组件中的潜在故障并确定其优先级。 执行 FMA 以帮助你评估每种故障模式的风险和影响。 确定工作负载如何响应和恢复。 |
☐ | 回复:04 | 定义组件、流和整体解决方案的可靠性和恢复目标 。 可视化目标,以协商、达成共识、设定期望并推动行动来实现理想状态。 使用定义的目标生成运行状况模型。 运行状况模型定义正常、降级和不正常状态的外观。 |
☐ | 回复:05 回复:05 |
通过实施错误处理和瞬态故障处理来增强工作负载的弹性。 在解决方案中构建处理组件故障和暂时性错误的功能。 |
☐ | 回复:06 | 通过在测试和生产环境中应用混沌工程原则来测试弹性和可用性方案。 使用测试通过执行主动故障和模拟负载测试来确保正常降级实现和缩放策略是有效的。 |
☐ | 回复:07 | 实施与恢复目标相对齐的结构化、经过测试和记录的业务连续性和灾难恢复(BCDR)计划。 计划必须涵盖所有组件和整个系统。 |
☐ | 回复:08 | 测量并发布解决方案的 health 指标。 从整个工作负载以及单个组件和关键流持续捕获运行时间和其他可靠性数据。 |