可靠性设计原则

可靠的工作负载必须具有弹性,以便能够检测中断和故障并从中恢复,并始终如一地提供功能。 它必须能够在合理的时间范围内从故障中恢复。 它还必须可用,以便用户可以在商定的时间范围内以商定的质量级别一致且可靠地访问工作负载。

使用 Well-Architected Framework Microsoft Azure 中的 以下设计原则来帮助确保整个生命周期的可靠性。 从推荐的最佳实践开始,并证明每个可靠性原则的好处。 设置策略后,使用 可靠性清单 作为下一步步骤。

如果不将这些原则应用于设计,则工作负载很可能不会准备好预测或处理生产中的问题。 其结果可能是服务中断,导致财务损失。 如果是关键的工作负荷,不应用这些原则可能会危及安全。

为满足业务要求进行设计

目标图标收集和了解业务需求,重点关注工作负载的预期使用情况。

要求应包括用户体验、工作流、数据和特定于工作负载的功能。 目标应该是现实的,并根据给定的预算与所有利益相关者达成一致。 这些要求应该清楚地定义对团队和利益相关者的期望。 记录要求以指南技术选择、实施和运营。

详细了解如何在 Azure Well-Architected Framework 中针对业务要求 进行设计。

为获得复原能力进行设计

目标图标工作负载必须响应故障并继续以完整或减少的功能运行。

设计工作负载,使其能够识别故障和组件中断。 使系统具有弹性,以便它可以容忍故障并顺利处理它们。 通知用户系统状态,并设置哪些组件不可用以及预期恢复需要多长时间的预期。

详细了解如何在 Azure Well-Architected Framework 中设计复原 能力。

为恢复进行设计

目标图标工作负载必须能够从故障中恢复,同时将对用户体验和业务目标的干扰降至最低。

制定结构化、经过测试和记录的恢复计划,以实现快速恢复。 确保您的支持和运营团队能够访问这些计划,并经常执行恢复演练,以避免在实际中断期间出现混乱和混乱。

详细了解 Azure Well-Architected Framework 中的恢复 设计。

为运营进行设计

目标图标工作负载必须是可观察的,并且开发团队必须能够从失败中吸取教训。

将监控构建到您的工作负载中,以便开发和支持团队有足够的数据来分析何时、为什么以及哪个组件出现故障。 构建有意义的警报,以便在发生故障时通知支持团队。 使用分析和洞察来推动改进。

详细了解如何在 Azure Well-Architected Framework 中设计操作

保持简单

目标图标避免对架构设计、应用程序代码和操作进行过度设计。

专注于业务需求,并删除不必要的功能和组件。 建立提高一致性的开发和部署标准。 利用平台提供的功能和预构建的资产来最大限度地缩短开发时间。

详细了解如何在 Azure Well-Architected Framework 中保持简单

后续步骤