关于从失败中吸取经验和教训的有用做法
现在,你了解了可能妨害(或者至少会限制)你能从事后回顾中获得的价值的一些常见陷阱,那么下一个合乎逻辑的问题便是“那应该怎么办?”
在本单元中,你将了解四个可改进事后分析过程的有用做法。
做法 1:运行一个有人协调的事后回顾
你已经了解到,事后回顾不是一份文档或报告 - 理想情况下应该是对话 - 因此,仅仅让一个人写一份“事件调查报告”而不进行任何讨论不足以构成有帮助的事后回顾。 无论那个人有多了解情况、有多深入地涉及该事件,如果所有结论都来自单个视角,就不可能学到多少有用的东西。
第一步是同时召集到事件中涉及的所有人员。 在会议中安排一个可以帮助引导讨论的协调员通常很有用。 理想情况下,协调员应该是未实际参与事件的“中立”人员。 如果协调员在讲述事件的过程中不表现出任何先入为主的意见或个人观点,那么大家都会学到更多。
会议的确切格式取决于你的团队、日程安排以及事件的性质,但在此介绍一些基本指导原则:
- 只是一场会议,而不是马拉松式的拉锯战:会议不必很长。 一般说来,60 到 90 分钟是大多数人可以完全专注并有效参与的最长时间,因此请将会议限制在一个半小时以内。
- 会前准备:为了更好地利用会议时间,协调员最好进行事先准备,与响应团队的某些成员进行一对一访谈,以便大致了解相应事件,并想好要在会议中讨论哪些话题。 如果担心人际问题或某些人的个性使会议难以进行(或者有人由于任何原因而不愿意在大家面前表达意见),则可以向该群体报告单独访谈的成果。
- 并非每个事件都需要:这是一个学习过程,你要做的是“学习如何学习”,所以请从小处着手。 不需要对每个事件都进行事后回顾。 可以选择性地评审。 可以从较小的事件开始,或者从每月仅召开一次评审会议开始。
事后回顾会议是一个机会,可以找出哪里出了问题,哪些地方做得对,以及如何在未来更好地处理失败。 最终目标是提高可靠性。
做法 2:提出更好的问题
你已经知道了语言的重要性,而这种重要性在事后回顾中提出的问题上体现得尤为明显。 客观问题通常会得出更有用的答案。
具体说来,问“怎么”和“什么”好过问“为什么”。
如果问别人“为什么”进行了某些操作,或者“为什么”会出现某些情况,通常会让他们产生防御心理。 以“为什么”开头的问题通常会给人以审判、批评或指责的感觉。 这样的问题会迫使人们为自己的行为找原因,而有时人们并不知道自己为什么会那么做,也不知道自己的行为为什么会导致那样的结果。 它还可能让人们直接跳到问题的原因或结论,跳过大量值得讨论的信息。 例如,如果你问“为什么系统会停止工作?”答案可能是“因为磁盘满了。”这会直接跳过很多重要的问题,比如“你怎么注意到磁盘有问题的?”甚至“你首先检查的是系统的哪一部分?是什么让你这么做的?”
这并不是说你不能探究事件的促成因素或一个人用来决定如何进行响应的原因,而是说你应该注意这些问题的表述方式:
不要问“你为什么会这样做?”
而要问“是什么因素促使你做出了这一改变?”
不要问“为什么 canary 中没有发现这种情况?”
而要问“一般说来,canary 在发现这类问题方面的效果怎么样?”
请记住,事后回顾的重点在于学习。 事件中每个参与者对于事件的看法都可能略有不同。 如果问出的问题能够揭示这些多重性的观点和阐释,就能学到更多东西。
询问工作的“正常”情况,通常能够得到与询问特定事件时相同的经验。
若要详细了解如何提出更好的问题,请查看以下资源:
做法 3:事情是如何做对的
考虑从失败中吸取经验和教训时,你可能会忘记,即使在重大的服务中断或其他事件中,除了出错的地方,也还是有做对的事情。 与我们的观点相去甚远的是,事故并不是一次性的,也不是极端情况的产物;在大多数复杂系统中,为了做对一件事而进行的很多操作同时也是导致这件事出错的原因。
在出现问题时关注负面情况是人性使然。 不过,询问事情是如何做对的会让你获得无法通过其他方式获得的见解。
不要只是问中断是如何发生的,同样也要问对方是如何恢复的。
你需要了解哪些见解、工具、技能和人员在恢复过程中起到了帮助作用。 你会希望能够重现这些因素,因此这些信息对于计划将来的操作很有价值。
在这种语境下,可以问问人们得知相关信息的途径和作出决策的基础。 是不是有人在关键时刻分享了一条重要信息,才让大家了解到发生了什么事的? 那个人是怎么知道要共享那条信息的? 那条信息来自何处?
查找主题和模式。 最后,在了解做对的事情的时候,问问“什么是你以前不知道,而现在知道的?”如果从事件及事件的响应和回顾过程中学到了东西,你就又做对了一件事。
这呼应了之前讲过的一个要点:我们不仅需要学习如何防止中断,同样需要如何改进响应能力。
做法 4:独立进行评审和计划会议
解决当下的事件后,自然要讨论修复措施和将来的缓解方案,而且也应当这么做,但是不应该在事后回顾会议中讨论这些主题。 事后回顾会议是有目的的,而在这种会议中安排关于修复措施的讨论会让大家偏离该目的。
最佳做法是在事后回顾后一两天举行单独的会议来探讨修复措施和计划问题。 可以减少这次会议的与会者。
这样做有两方面的好处:
- 这有助于进行事后回顾。 不重点关注如何解决问题时,比较容易避免直接得出结论。
- 留出一两天的时间供大家吸收和消化信息,有助于确定最“节能”的修复措施 - 花最少的力气达到最好的效果。 潜意识会帮你的忙,只要给它一些时间就行了。