介绍
Dickerson 可靠性层次结构提供了应对可靠性挑战的路线图,说明了需要解决哪些问题以及解决这些问题的顺序。 与其他类似层次结构一样,确定当前级别稳定可靠再移动到金字塔的上层是非常重要的。
此模块所应对的问题大致处于该金字塔的中层。 解决监视和事件回顾问题(也许可以利用此学习路径中其他学习模块的帮助)之后,现在可以重点关注可以帮助你改进操作实践的原则和做法了。
在此模块中,我们将重点介绍事后回顾,这种做法可以帮助你从失败中汲取经验和教训,从而提高可靠性。
完成学习本模块后,你将:
- 了解从事件中学习的重要性。
- 了解使得“从失败中吸取经验和教训”这种做法很重要的复杂系统的各个方面。
- 了解何时以及如何进行事后回顾。
- 了解事后回顾的目的和目标。
- 了解良好事后回顾的组成部分。
- 注意应避开的常见陷阱。
- 确定可改进评审的有用做法。
开篇故事
为了为本模块设定场景,下面讲述一个真实的故事(实际上只会讲一半 - 我们将在本模块的稍后部分讲述故事的下半部分):
在第二次世界大战中,B-17“飞行堡垒”飞机卷入了一系列事故。 我们不知道这些事故的全部细节,也不知道具体有多少细节。 那是战争年代,许多细节都是机密,至今仍然不为人知。 我们知道的是,发生了相当多的类似事件,涉及许多架飞机(讨论这种严肃话题时“许多”也许没有什么意义),几乎可以确定没有人在这些事故中受到重伤。
在每个事件中,都会发生这样的状况:B-17 会开始着陆并成功着陆,然后在跑道上或在滑回悬架的过程中,会发生一些奇怪的事。 会出现严重的问题。 B-17 在地面上时,起落架会突然收回,然后飞机会倒在跑道上。
在每个事件中,调查员都会寻找机械或电气故障的证据,但从来没有找到过。 因此他们得出的结论是,这是一种飞行员失误,是飞行员错误地收回了起落架。
下面是另外两条信息:调查人员的说法是正确的,没有发生机械或电气故障。 这种事故不断发生。
这一信息可能会让你对与这些事故有关的最初结论感到不满,也许会让你疑惑这是不是全部的真相。 在本模块中,我们将提出这样的观点:这一结论和让人得出这种结论的调查过程中存在缺陷。