卓越运营建议清单

此清单提供了一组建议,可帮助你建立卓越运营文化。 从融合开发和 DevOps 方法开始,以集成多个学科的专业知识。 这种方法创建了严格的设计和开发实践,从而实现可重复、可靠且安全的基础设施和代码部署。

优先考虑从中受益的领域进行人工干预,并将自动化纳入其他领域。 可观测性通过监控 health 事件并验证当前的工作负载设计和实施来为未来的产品开发提供信息,从而为卓越运营服务。

如果不考虑卓越运营的权衡和建议,工作负载可能会面临风险。 仔细考虑以下清单中介绍的要点,以增强设计成功的信心。

清单

  代码 建议
OE:01 确定工作负载团队成员的专业化,并将其整合到一组强大的实践 中,以按照规范设计、开发、部署和操作工作负载。 团队成员必须明确决策和职责,重视持续改进和优化,并采用包含连续学习的无指责文化。
OE:02 通过使用文档、清单或自动化功能,正式确定您运行日常、按需和紧急运营任务 的方式。 通过采用行业领先的实践和方法(例如“左移”方法),努力实现团队流程和可交付成果的一致性和可预测性。
OE:03 正式化软件构思和规划过程。 借鉴既定的行业和组织标准。 使用通用的、按优先级排列的积压工作和足够详细的规范。 根据结果,推动规划过程中的持续改进。
OE:04OE:04 通过遵循行业公认的开发和测试实践来优化软件开发和质量保证流程 。 为了明确指定角色,请跨组件(如工具、源代码管理、应用程序设计模式、文档和样式指南)标准化做法。
OE:05 构建工作负载供应链,通过可预测的自动化管道推动提议的变更 。 管道跨环境测试和提升这些更改。 优化供应链,使您的工作负载可靠、安全、经济高效且高性能。
OE:06 设计并实施监控系统 ,以验证设计选择并为未来的设计和业务决策提供信息。 此系统捕获并公开从工作负载发出的操作遥测数据、指标和日志。
OE:07 年 制定有效的应急操作实践。 确保您的工作负载发出有意义的运行状况信号。 收集生成的数据并使用它来生成可操作的警报,这些警报通过控制面板和查询来制定紧急响应。 明确定义人员职责,例如待命轮换、事件管理、紧急资源访问和运行事后分析。
OE:08 自动执行所有无法从人工干预的见解和适应性中受益的任务,具有高度程序性,并且具有可带来自动化投资回报的保质期。 如果可能,请选择用于自动化的现成软件,而不是自定义实现。 将所有自动化视为工作负载组件,并将其 Power Platform 框架支柱应用于其设计和实现。
OE:09 提前 为生命周期问题等操作设计和实施自动化,并应用治理和合规性护栏。 以后不要尝试改造自动化。 选择平台提供的自动化功能。
OE:10 明确定义工作负荷的安全部署做法。 强调小型、增量、质量关口的发布方法的理想方案。 使用新式部署模式来控制风险。 考虑例程部署和紧急部署或修补程序部署。
OE:11 实施部署故障缓解策略 ,通过快速恢复解决意外的中期推出问题。 结合使用多种方法,例如回滚、功能禁用或使用部署模式的本机功能。

后续步骤