回避すべき一般的に陥りやすい問題

7 分

説明してきたロードマップは、インシデントの事後レビュープロセスを開始するのに役立ちますが、このような取り組みをする際に発生する可能性のあるいくつかの問題について知ることも役立ちます。

このユニットでは、インシデントの事後レビュープロセス中に他者が陥った一般的な陥りやすい問題と、それらを回避する方法について説明します。

陥りやすい問題 1:"ヒューマンエラー" への帰属

"パイロットエラー" ("ヒューマンエラー" とも呼ばれます) は、モジュールの導入部で始めた B-17 のストーリーで、最初の調査員が到達した結論でした。ストーリーに戻ってみましょう。

導入部では、到達した結論が満足できるものではない可能性があると示唆しました。米国空軍からインシデントの調査依頼を受けた軍事心理学者の Alphonse Chapanis にとっては、まったく満足できるものではありませんでした。特に、これらの事故は、B-17 とその他のごく一部の航空機に固有であることに気付きました。西ヨーロッパでは、同時に使用されている C-47 輸送機が多数存在していましたが、似たインシデントは C-47 に発生したことはありませんでした。

そこで彼はパイロットにインタビューし、聞いた話をもとに B-17 のコックピットを見てみました。 2 つのスイッチがありました。ギア用スイッチとフラップ用スイッチです。コックピットでは、スイッチは約 3 インチ離れていました。操作方法は同じです。それらは簡単に混同してしまうようなものであり、インシデントでは、その混同が起きていたのです。飛行機の着陸直後は、フラップが伸ばされ、駐車する前に格納します。そこで、Chapanis は違う形を試みました。

ギア用スイッチに小さなゴムのホイールを、フラップ用スイッチに硬い角のある "フラップ" を接着すると、案の定事故の発生が止まりました。

現在、彼は人間のパフォーマンスにおける設計要因の研究である、人間工学の分野の創始者の 1 人として知られています。彼は、コックピットの設計がヒューマンエラーが発生する可能性に影響を与えるという単純な観察結果を得ました。このアプローチは、すべての現代の航空機の設計に取り込まれています。 2 つのスイッチは、現代の航空機では米国連邦法によって大きく離すように義務付けられています。

では、このストーリーをお伝えしたのはなぜでしょうか。

間違いを犯さない人間はいません。ただし、"ヒューマンエラー" は原因ではありません。これは症状です。ヒューマンエラーをエラーの原因であると判断すると、人はインシデントをさらに分析するのではなく、そこでやめてしまいます。

システムの設計、組織の状況、および個人の状況は、人間の失敗するタイミング、方法、影響度に影響を与えます。 "ヒューマンエラー" とは、システムに関して興味深いものを見つかりそうなその瞬間に、調査を辞めさせるようなレッテル張りです。

調査に関して "ヒューマンエラー" という結論に問題があるのは、その時点では本人にとって合理的な行動であった、という事実を見失ってしまうからです。定義上、失敗は意図的なものではないため、間違いを犯したくて犯したわけではありません。

"ヒューマンエラー" を見たり聞いたりした場合、それはもっと調べる必要があるというサインです。学びたいのであれば、ヒューマンエラーが見つかったときに調査をやめてしまうことが多いですが、やめないようにする必要があります。 B-17 のストーリーが示すように、ヒューマンエラーを超えるだけで、システムに関する興味深いことがわかります。

陥りやすい問題 2:反事実的推論

"反事実的" とは、"事実とは逆" を意味し、"半事実的推論" とは、発生した事象について説明するために、発生しなかった事象について語ることです。これは合理的ではありませんが、人はいつもこうしてしまう傾向にあります。

次のようなキーフレーズで半事実的な発言を識別できます。

～できたはずだ
～すべきだった
～しただろう
～に失敗した
～しなかった
もし、そうだったならば～

インシデントの事後レビューに関連する反事実的発言の例を次に示します。

"監視システムが問題を検出できませんでした。"

"エンジニアは、適用する前に構成の有効性を確認しませんでした。"

"これは、カナリア環境で気付けるものでした。"

インシデントの事後レビューでこの種の理由付けが問題になる理由は、何が起こったかを理解するために時間をかけるのではなく、発生しなかったことを話していることです。このような推測からは何も学べません。

陥りやすい問題 3:規範的な言葉

"規範的な言葉" は、多くの場合、オペレーターが行うべき "明らかに正しい" 行動があることを示唆し、後知恵を利用してオペレーターの行動を評価します。

規範的な言葉は、通常、"不適切に"、"不注意で"、"慌てて" などの副詞で識別できます。

規範的な考えを持つと、結果に基づいて意思決定を評価することになります。このような言い方は論理的ではありません。なぜなら、結果は決定と判断を行った人物が "そのとき唯一得ることができない情報" だからです。

規範的な言葉は、逆の意味でも使用されます。たとえば、オペレーターが "適切な" 行動をしたと称賛することができます。しかし多くの場合、対象の人物が当時持ち得なかった情報を基にこの判断がなされます。

規範的な言葉の問題は、反事実的推論の問題に似ています。インシデントに関与した人物が当時得ることができない情報を使って評価すると、当時オペレーターにとってそのような行動が合理的に見えた理由を軽視することになります。

陥りやすい問題 4:メカニズム推論

メカニズム推論とは、特定の結果は介入から推測できるという概念を意味します。 "邪魔な子供たちさえいなければ、私たちのシステムは問題なく動作したはずだ" という前提に基づくため、"邪魔な子供症候群" (Jessica DeVita による造語) と呼ばれることもあります。

インシデントの事後レビューでメカニズム推論を使用すると、運用しているシステムは基本的に正しく機能しており、"邪魔な子供" さえいなければ障害は発生しなかったという誤った考えを基に結論を構築します。

しかし、システムはそのようなしくみではありません。

この点を説明するために、次のシナリオを考えてみましょう。あなたは実稼働サービスの運用を行っています。そのサービスに触れてはならず、何も実行してはいけないと告げられました。チーム以外のすべては、以前と同じように継続されます。顧客は引き続きサービスを使用し、外部の依存関係は引き続き変更され、インターネットは通常どおりに機能します。

しかし、コードや構成を変更することはできません。デプロイも、コントロールプレーンの操作もできません。

サービスは、1 日後も期待どおりに実行できていると思いますか。 1 週間後はどうでしょう。 1 か月後は。 1 年後はどうでしょう。現実的に、人の介入なしにサービスを稼働し続けられると考えられる期間はどれくらいでしょう。ほとんどの場合、不可能です。

この思考実験は、次のような重要な結論をもたらします。

システムの稼働状態を維持するには、人間の適応能力が必要です。

システムがそもそも稼働状態になっているのは、制御ループ内の人間の行動があるからです。人間の変化する状況に適応するための行動と能力があって初めてシステムの機能は継続するのです。

そのため、システムが "邪魔な子供さえいなければ、基本的には動いていた" と結論付けるのは間違っています。実際には、サービスの信頼性は、作業している人間から独立しているものではありません。そうではなく、人間が毎日実行する作業の直接的な結果です。

メカニズム推論の問題点は、欠陥がある人物を発見することと、問題を見つけることが同等だと考えてしまうことです。しかし、そのように欠陥がある人物が、数週間、数か月にわたって臨機応変に対応し、システムの稼働を継続させ続けてきたのです。この役割は、インシデントの事後レビューの際に振り替える必要があるほど重要かもしれません。

インシデントの事後レビュー中に回避すべきことが一部がわかったので、次のユニットに進んで、これらのレビューに関するいくつかの役立つプラクティスについて説明します。

回避すべき一般的に陥りやすい問題

陥りやすい問題 1:"ヒューマン エラー" への帰属

陥りやすい問題 2:反事実的推論

陥りやすい問題 3:規範的な言葉

陥りやすい問題 4:メカニズム推論

自分の知識をチェックする

フィードバック

陥りやすい問題 1:"ヒューマンエラー" への帰属