无责备事后调查
使用 DevOps 的组织希望以学习为目标来查看错误。 对故障和事故进行无责备事后调查是该目标的一部分。
拥有公正文化意味着你正在努力平衡安全性和问责制。 这意味着,通过以关注失败的情境方面和接近失败的个人决策过程的方式来调查错误,组织可能会有比惩罚相关人员更安全的方案。
无责备事后调查的意思是,如果工程师的操作导致了事故,则需要提供以下详细信息:
- 他们在什么时间执行了什么操作。
- 他们观察到的效果。
- 他们有什么期望。
- 他们做了什么假设。
- 他们对事件发生时间线的了解。
重要的是,他们可以对此进行详细说明,而不必担心受到惩罚或报应。
认为自己将受到谴责的工程师将不想对问题进行现实、准确的说明。 不了解事故是如何发生的,就会导致事故再次出现;如果不是由最初的工程师引起,那就会是由其他人引起。
“我们必须努力理解,事故不会因为人们赌博输了而发生。 发生事故的原因是人们认为:
…即将发生的事情是不可能的,…即将发生的事情与他们正在做的事情没有关系,…或者说,只要有可能得到预期的结果,就值得冒任何风险。”
— Erik Hollnagel
允许工程师拥有其自己的故事
当工程师犯了错,但能够安心提供详细信息时,就会发生有趣的事情。 他们不仅愿意承担责任,而且还乐于帮助公司的其他员工避免将来出现同样的错误。 毕竟,他们是最有可能解决错误的专家。 他们应该积极参与制定补救措施。
如何启用“公正文化”?
- 通过对故障和事故进行无责备事后调查来鼓励学习。
- 提醒自己,我们的目标是了解事故是如何发生的,以便更好地装备自己,防止事故在未来再次发生。
- 从多个角度收集有关失败的详细信息,不要因为别人犯了错误而惩罚他们。
- 与其惩罚工程师,不如授予他们必要的权限,让他们能够详细说明如何导致了错误,从而提高安全性。
- 鼓励犯过错的人成为专家,以教育组织的其他成员在未来如何避免犯错误。
- 接受一个事实:人类总有一个自由裁量的空间,可以决定采取行动或不采取行动,对这些决定的评估取决于事后的认识。
- 接受一个事实:事后偏见会影响我们对过去事件的评估,所以请努力消除这种偏见。
- 接受一个事实:基本归因错误也很难避免,因此请在调查事故时关注人们所处的环境和条件。
- 努力确保组织中的钝端(例如,董事会或高管)了解工作的实际完成情况。 通过锐端(例如,工程师和技术)的甘特图和过程,将这与他们想象中的工作完成情况进行比较。
- 尖端必须告知组织适当行为与不适当行为之间的界线。 这不是钝端可以自行解决的情况。
失败总会发生。 为了了解失败是如何发生的,我们首先必须了解我们对失败的反应。