总结

已完成

事件人人都有。 如果你运行基本上任意大小的任何系统,那么在某个时间点,它将出现故障,并且你将遇到中断问题。 这是事实。 这就是为什么在 Dickerson 的可靠性层次结构中“事件响应”紧跟在“监视”后面的原因。

这样,问题变成了:在这些时候,你如何做出反应?是用设定的计划或过程来应对紧急情况,还是做出临时的反应? 我们从该领域的良好研究中得知,恢复时间是衡量高绩效组织的指标之一。 对于降低恢复时间而言,一个良好的事件响应过程是至关重要的。

在本模块中,我们看到了事件的各个阶段并探讨了针对每一阶段进行事件响应的计划的一些关键组成部分。 我们讨论了能够很好地跟踪事件的重要性,以及使用 Azure 提供的工具自动执行该过程的方法。 我们还介绍了在事件期间交流的关键方面。 最后,我们探讨了 Azure 提供的一些工具,它们可帮助你的组织在事件修正期间提高效率。