要避开的常见陷阱

已完成

我们已经讨论的有助于开始事后回顾的过程很有帮助,但了解在此过程中可能遇到的一些障碍也可能很有用。

在此单元中,你将了解其他人在事后回顾的过程中掉入的一些常见陷阱及其规避方式。

陷阱 1:归咎于“人为错误”

你也许能想起,我们在模块简介中开始介绍了 B-17 故事,在该故事中,最初的调查员得出的结论就是“飞行员失误”(也称为“人为失误”)。 让我们回到那个故事。

在该简介中,我们提到过,该结论可能无法让你满意。 美国空军请军方心理学家阿尔方斯·查帕尼斯调查这些事件,而这些结论当然无法让他满意。 他注意到,这些事故和其他一些现象是 B-17 和少量的其他飞机所特有的。 当时在西欧有数千架现役的 C-47 运输机,但从来没有 C-47 遇到过类似事件。

所以,他采访了飞行员,根据飞行员告诉他的信息,他又去检查了 B-17 的驾驶舱。 他在那里看到了两个开关:起落架开关和襟翼开关。 在驾驶舱中,这两个开关彼此相距约 3 英寸。 它们的操作模式完全相同。 它们真的太容易混淆了,这些事故中正是发生了这种事。 飞机刚刚着陆时要展开襟翼,在停泊之前要收回它们。 因此,查帕尼斯尝试了一种新的措施。

他在起落架开关上粘了小型橡胶圈,并在襟翼开关上粘了有棱角的硬“翼片”,果然再也没有发生相关事故。

他现在以工效学(研究设计因素对使用者表现的影响的学科)创始人之一而著名,他观察到一个简单的现象—驾驶舱的设计能够影响出现人为错误的可能性。 这种方法继续影响了所有现代飞机的设计。 根据美国联邦法律的强制要求,在当代飞机中,这两个开关截然不同。

那么,我们为什么要讲这个故事呢?

人非圣贤,孰能无过。 但人为错误不是原因,而是一种现象。 当认为人为错误是导致故障的原因时,人们会仅止于此而不会进一步分析事件。

系统设计、组织环境和个人使用场景都会影响人们出错的时间、过程和影响。 “人为错误”是一个标签,它会让你在即将发现有关系统的有趣信息时功亏一篑。

调查中得出“人为错误”这一结论的问题在于,这会让你忽视“人的行为在行为当下对其而言都是合理的”这一事实。 “失误”的定义表明并非是谁有意为之,也就是说犯错的人并非有意犯错。

看到或听到“人为错误”时,表示我们需要深入探究。 如果想要学习,就不能在发现人为错误时停止调查 - 而我们经常这样做。 B-17s 的故事表明,越过人为错误,我们可以了解到有关系统的有趣信息。

陷阱 2:反事实推理

“反事实”表示“与事实相反”,而“反事实推理”则表示讲述未发生的事来阐释已发生的事。 这样做的意义不大,即使人们总是倾向于这样做。

可以通过关键短语来识别反事实陈述:

  • 本来可以
  • 本来应该
  • 就可以
  • 没能
  • 没有
  • 要是

与事后回顾相关的一些反事实陈述包括:

“监视系统没能检测到问题。”

“工程师没有在实施配置之前检查其有效性。”

“在 canary 环境中本来可以发现这种情况的。”

在事后回顾中,这种类推理的问题在于,你是在谈论并没有发生的事,而不是花时间了解已经发生的情况。 你无法由这种推测得到任何有价值的信息。

陷阱 3:说教

说教通常意味着指出操作员本应采取一个“明显正确的”操作过程,并依据后见之明去评判这些操作员的行为。

常可通过“不充分”、“漫不经心”、“慌忙”副词等来识别说教。

说教思维会让你根据结果来评判决策。 这种说话方式不是合逻辑的,因为结果是进行决策和判断的人在进行决策和判断时唯一不可能拥有的信息。

说教也可能被用于反面。 例如,有人可能表扬操作员采取了“适当”的操作。 但是再次强调,这种评判通常是在获得相关人员作决定时所没有的信息后得出的。

说教的问题与反事实推理的问题相似:如果在事后使用事件过程中所涉及人员当时无法获得的信息来评判其操作,我们就会忽略这些操作在当时对操作员而言意味着什么。

陷阱 4:机械推理

机械推理是指“可由干预推断出特定结果”这一概念。 它有时称为“好事孩子综合征”(此词由 Jessica DeVita 所造),前提是“要不是那些好事的孩子…我们的系统本来会正常运行的。”

在事后回顾中使用机械推理时,你将基于这样一个谬论得出结论:你所使用和你所在的系统从根本上说来是能够正确运转的,只要那些“好事的孩子”没有做他们所做的事,就不会发生现在所发生的故障。

但是,系统的工作原理并非如此。

为了说明这一点,请设想以下场景:你在使用一项生产服务。 现在,你被告知不能改动该服务,也不能对其执行其他任何操作。 你团队以外的一切都一如既往:客户继续使用该服务,外部依赖项继续变化,Internet 正常工作。

但你不能对代码或配置进行任何更改。 不能部署,不能进行控制平面操作,不能进行任何操作。

你认为该服务在一天后还会按预期运行吗? 一周后呢? 一个月后呢? 一年后呢? 现实一点,你期望你的服务在没有人为干预的情况下保持正常运行多久? 在绝大多数情况下,它不会保持正常运行。

这种思维训练让我们得出一个重要的结论:

要使系统保持正常运行,必须要有人工调节能力。

系统最初保持正常运行的唯一原因,是人在控制循环中进行的操作。 只有通过人为操作,使其能够适应不断变化的情况,系统才能继续正常工作。

因此,“要不是那些好事的孩子…我们的系统本来会正常运行的。”事实上,服务的可靠性不能独立于使用该系统的人。 相反,它是系统使用者每天在系统上进行的操作的直接结果。

机械推理的问题在于,它会将你引入歧途,让你认为找到造成错误的人就等于找到了问题。 然而,那个造车错误的人一直在根据情况进行调整,让系统正常运行了好几周甚至几个月。 也许这一角色的重要性让你有必要在事后回顾中对其进行反思。

现在,你已了解事后回顾中应避免的一些问题,可以继续学习下一单元,了解对这种回顾有帮助的一些做法。

知识检查

1.

以下哪一个术语是指讲述未发生的事件以阐释已发生的事件?

2.

人为错误是一种…