为什么要从事件中学习?
发生事件时,你的第一反应可能不会是“抓紧了,学习的机会来了!”当务之急是找到出错的地方并尽快解决问题,以降低对客户和最终用户的影响,理应如此。 我们在本学习路径所含的另一个模块中讨论过这种事件响应过程。
但是,解决问题后,跟进和汲取经验非常重要。 如果我们不花时间从事件中吸取教训,那么它仍然只是时间、金钱、声誉等方面的损失;但如果该事件可以成为信息来源(没有其他来源可以做到),那么我们实际上可以从中受益。
事后回顾属于事件响应生命周期的分析阶段。 不是所有事后回顾都具有相同的价值。 可以通过各种方式来进行该过程,而过分关注问题的某些方面或者限定问题的方法不当都可能降低评审的价值。
在本单元中,你不仅要开始思考为什么要从事件中学习,还要开始思考如何能够以最佳方式从中学习。 我们将在后续的几个单元中详细探讨“如何”学习。
复杂系统故障
我们必须“学习如何从故障中汲取经验”,不是为了防备系统偶然出现故障的情况,而是因为系统必然会出现故障。
在当今世界(尤其是在云环境中),我们使用的大部分系统都是复杂的。 它们由很多相互关联的部分组成,这些部分必须协同工作,而整个系统的行为不仅取决于各个系统本身,还同样取决于系统之间的交互。
可靠性是贯穿本学习路径的线索,但复杂系统永远不会是百分百可靠的。 这种系统的行为方式很有趣,并且有违我们的直觉。 它们由许多部分组成,通常情况下,系统的行为不仅取决于各部分本身,还同样取决于各部分之间的交互。
有关本主题的更深入探讨,名为复杂系统如何出错的论文是一篇很有益的参考资料,这篇论文的作者是Richard I. Cook 博士。 他是一位麻醉师,也是这方面的研究人员,在复杂系统的安全性上有数十年的工作经验,具体说来即医疗保健系统中的患者安全。 这篇论文介绍了各领域(从医疗保健到软件操作)复杂系统的共同特征。
他的某些关键论点与事件分析和事后回顾过程的关系特别紧密:
- 复杂系统中包含不断变化的混合故障。 系统不可能在没有多个缺陷的情况下运行。 由于技术、工作组织和消除故障的措施不断变化,故障也会不断变化。 系统永远不可能尽善尽美地完成工作。
- 复杂系统在降级模式下运行。 复杂系统始终作为“破损的”系统运行。 它们始终以这种状态“运转”,因为它们包含许多冗余,即使存在许多缺陷,人们仍可以使其保持正常工作。 系统操作是动态的,组件会不断出错并被替换。
- 灾难总是只有一步之遥。 这些系统的复杂性意味着,严重的系统故障从长期看来是不可避免的。 复杂系统始终有可能出现灾难性的故障,并且它随时都可能发生。 这种隐患是不可能消除的,因为它属于系统的固有特性。
预防和响应
在努力为你的系统和服务提供你所期望的可靠性水平时,你会竭尽所能防止发生事故。 但是,由于这些系统具有如上所述的复杂性,事故有时防不胜防。
意识到这一点,我们就必须对故障做好两手准备:预防,并准备好快速而有效地响应无法预防的事件。
预防和响应是相辅相成的。 如果你的组织部署过大多数时候可以正常工作的复杂自动化系统,你可能已经对此深有体会。 它大多数时候都能正常工作,这很好,但一旦它出现故障,可能就会是很大的故障,让操作员更难理解是哪里出了错。
你所使用的系统不仅由技术构成。 事实上,你并不是“使用”或者“通过”系统工作,而是在系统中工作。 你是系统的一部分。 复杂系统由技术(硬件、软件)和人(人员及其个性、培训和知识)组成。 我们的系统是包含人的系统,而人在出错时如何反应与从一开始就避免出错同样重要。
语言
语言很重要。 在本模块中,你会了解到,我们对于所用的词和有意要避免使用的词都有非常具体的原则。
我们所用的词会话影响我们如何考虑事件中所发生的情况,并且会彻底改变我们学到的经验和学习的深度。 这一发现来自于航空、医学、搜救、消防等安全至关重要的行业的调查。
总的来说,这一研究领域被称为弹性工程 (RE)。
关于技术领域的复原力工程,我们有很多知识需要学习。 在本模块的稍后部分,我们将分享我们从 RE 文献中学到的一些非常有用的知识,包括人们在尝试从失败中吸取经验和教训时最常掉入的四个陷阱;但首先,我们需要定义一些术语。