インシデントから学ぶ理由
インシデントが発生した場合、おそらく最初の反応は、"学習機会が得られて嬉しい!" ではないでしょう。喫緊の優先事項は、当然、顧客とエンド ユーザーへの影響を軽減するために、どのような問題が発生しているかをすぐに把握し、それをできるだけ迅速に修正することです。 これは、このラーニング パスの別のモジュールで説明したインシデント対応プロセスです。
ただし、インシデントが解決されたら、追跡調査して経験を糧にすることが重要です。 インシデントから学ぶ時間を設けないと、インシデントは時間、お金、評判などが失われるだけの出来事のままです。しかし、そのインシデントがかけがえのない情報源になるのであれば、そこから学び、利点を引き出すことができます。
インシデントの事後レビューは、インシデント対応ライフサイクルの分析フェーズの一部です。 インシデントの事後レビューはすべて同じではありません。 プロセスにアプローチするにはさまざまな方法があります。問題の特定の側面に重点を置きすぎたり、間違った方法で質問を組み立てた場合は、レビューの価値が減少してしまいます。
このユニットでは、インシデントの発生理由を考えるだけでなく、インシデントから最大限に学ぶ方法を考えることから始めます。 以降のユニットで、この方法を詳しく述べます。
複雑なシステムには障害が起きる
障害から "学ぶことを学ぶ" 理由は、システムに障害が発生した場合に備えるためではなく、システムには必ず障害が発生するからです。
現代の世界では、今日、特にクラウド環境で運用するシステムの大部分は複雑です。 システムは、連携する必要がある多くの相互接続した要素から構成されています。システム全体の動作は、個々の要素、そして同様にこれらの部分の相互作用から生じます。
信頼性は、このラーニング パス全体を通したテーマですが、複雑なシステムの場合、信頼性は 100% ではありません。 そのようなシステムは、興味深く直感に反する形で動作します。 これらは多くの要素で構成されており、多くの場合、システムの動作は要素自体と同様に、これらの部分の相互作用から発生します。
このトピックの詳細については、Richard I. Cook 博士の『How Complex Systems Fail』という論文を参照してください。 彼は、複雑なシステムの安全性 (特に医療システムにおける患者の安全性) に数十年に携わってきた麻酔専門医兼研究者です。 この論文では、医療からソフトウェア操作まで、あらゆる分野の複雑なシステムに共通するものについて説明しています。
一部のキー ポイントは、特にインシデント分析とインシデントの事後レビュー プロセスに関連しています。
- 複雑なシステムには、常に変化する障害の組み合わせが潜んでいます。 複数の欠陥が存在しない状態で、システムを運用することはできません。 テクノロジ、業務組織、および障害を絶つための取り組みが常に変わるため、障害も絶えず変化しています。 システムは完全に機能することはありません。
- 複雑なシステムはパフォーマンスが低下した状態で運用されています。 複雑なシステムは、常に "破損した" システムとして運用されています。 多くの冗長性が含まれているため "動き続ける" ことができ、多くの欠陥が存在する場合でも機能を維持できます。 システム運用は動的であり、コンポーネントは継続的に失敗し、交換されています。
- 常に大惨事が発生する可能性があります。 これらのシステムの複雑さは、システムの重大な障害が、長期的には避けられないことを意味します。 複雑なシステムには、常に致命的な障害が発生する可能性があり、それがいつかはわかりません。 システムの固有の性質の一部であるため、この可能性を排除することはできません。
防止と対応
システムとサービスに対して必要なレベルの信頼性を実現するために、インシデントが発生しないようにするためのすべての作業を行っています。 ただし、前述のように、これらのシステムの複雑さにより、防止は常に可能であるとは限りません。
このように認識しているため、障害に対して 2 つの長期的なアプローチをとる必要があります。防止と、それが不可能な場合は、迅速かつ効率的に対応できるように準備します。
防止と応答は関連しています。 ほとんどの場合機能していた高度な自動化を組織がデプロイしたときに、次のような経験をしたことがあるのではないでしょうか。 ほとんどの場合はうまく機能していましたが、障害が発生した場合は重大な障害になり、その結果オペレーターが問題を理解するのが難しくなったのではないでしょうか。
作業対象のシステムは、テクノロジ以上のもので構成されています。 実際には、人はシステム "に対して作業する" またはシステム "を扱う" わけではなく、システムの一部として取り組みます。 人はシステムの一部です。 複雑なシステムには、技術的コンポーネント (ハードウェア、ソフトウェア) と人的コンポーネント (人々、その個性、トレーニング、知識) の両方が含まれます。 私たちのシステムは、人間を含むシステムであり、問題が発生したときに人間がどのように反応するかは、そもそも問題が発生するのを防ぐことと同じように重要です。
言語
言語は重要です。 このモジュールでは、使用している用語と、意図的に使用していない用語について非常に明確にしています。
私たちが使用する言葉は、インシデントで何が起こったかに関する考え方に影響を与え、学ぶ内容とその量を大きく変えます。 この発見は、航空、医療、検索、捜索救難、消防などの安全性が重要な業界の研究から得られたものです。
この研究分野は、レジリエンス エンジニアリング (RE) と総称されるようになりました。
テクノロジ セクタにおけるレジリエンス エンジニアリングについては、学ぶべきことが非常に多くあります。 このモジュールの後半では、失敗から学習する際に役立つ 4 つの最も一般的に陥りやすい問題を含む、RE 関連資料から学んだ非常に有益な情報を共有します。ただし、まずいくつかの用語を定義する必要があります。