責めない事後分析

完了

DevOps を実践する組織では、"学習" を目標として間違いやエラーを見る必要があります。 障害や事故の発生時に責めない事後分析を行うことは、その目標の一部です。

"ジャスト カルチャ" を持つということは、安全性と説明責任のバランスを取るために努力することを意味します。 つまり、障害の状況的な側面や、障害に近い個人の意思決定プロセスに焦点を当てるような方法で間違いを調査することにより、組織は関係者を罰した場合よりも、より安全な結果を生み出せるということです。

"責めない" 事後分析とは、自分のアクションが事故の一因となったエンジニアが、以下の点について詳細に説明できるという意味です。

  • いつ、どのようなアクションを取ったか。
  • どのような効果を観察したか。
  • どのようなことを予想していたか。
  • どのようなことを仮定していたか。
  • 各イベントが発生した時系列についての理解。

このような詳しい説明を、処罰または懲罰を恐れることなく行えることが重要です。

自分は叱責されるだろうと考えているエンジニアは、問題を現実的に、正確に説明しようとする意欲を持ちません。 事故がどのように発生したかを理解しないのは、それが "今後" も、元のエンジニアでなければ他のだれかによって、再び発生すると保証するようなものです。

「事故が起きるのは、人がギャンブルに負けるせいではないことを理解するよう努力する必要があります。 事故が起きるのは、人が次のように信じているためです。

...起きようとしていることは不可能だ、...起きようとしていることは自分が行っていることとは関係がない、...または、意図した結果を得られる可能性には、どんなリスクにも見合う価値がある。」

Erik Hollnagel

エンジニアが独自のストーリーを所有できるようにする

間違いを犯したエンジニアが、間違いについて安心して詳述することができる場合、おもしろいことが起こります。 進んで責任を負うだけでなく、会社の他のメンバーが今後同じエラーを回避できるよう熱心にサポートするようにもなります。 そのエラーが発生した場合は、やはり、それらのメンバーが一番詳しい知識を持っています。 修正を考案する際は、それらのメンバーが深く関わるべきです。

"ジャスト カルチャ" を実現する方法

  • 障害や事故の発生時に責めない事後分析を行うことで、学習を促進する。
  • 事故が今後発生しないようより良い準備をするために、事故が "どのように" 起こり得たかを理解することが目標であると自分に言い聞かせる。
  • 障害発生時に複数の観点から詳細情報を収集し、間違いを犯したことでメンバーを罰しない。
  • エンジニアを罰するのではなく、自分が障害の一因となったことについて詳しく説明できるようにすることで、安全性を向上させるために必要な権限を与える。
  • 間違いを犯したメンバーが、今後その間違いを犯さないようにする方法を組織の他のメンバーに教える専門家になれるようにし、またそれを奨励する。
  • 人間が行動を取るかどうかを決定できる自由裁量の領域が常に存在すること、およびそのような決定の評価は後知恵であることを認める。
  • 後知恵バイアスによって過去のイベントの評価が悪くなる可能性があることを認め、それを排除するよう努力する。
  • 根本的な帰属の誤りも回避するのが困難であることを認め、事故を調査する際はメンバーが作業している環境と状況に焦点を当てる。
  • 作業が実際にはどのように行われているかを、組織の (取締役や最高幹部など) 鈍端に理解させることに務める。 これを、鈍端が (エンジニアや技術者などの) 先端のガント チャートと手順から、どのように遂行されていると想像しているかと比較する。
  • 先端は、適切な行動と不適切な行動の境界線がどこにあるかを組織に伝える必要がある。 鈍端が自分でこれを考え出すことはできない。

障害は発生するものです。 障害がどのように発生するかを理解するためには、まず、障害に対する私たちの反応を理解する必要があります。