ディッカーソンの信頼性の階層

完了

"信頼性の向上" ラーニング パスのマップは、ディッカーソンの信頼性の階層と呼ばれるサイト信頼性エンジニアリングの世界のモデルに基づいています。 マイキー・ディッカーソン氏は、米国デジタル サービスの設立管理者となった SRE です。 この階層は、かつて経験したことのない信頼性の最大の危機に直面しながら作成されました。

a diagram of a pyramid showing the seven levels of the hierarchy of reliability.

このモデルは、アブラハム・マズローの人間の動機付けに対処する "欲求段階説" に基づいてパターン化されています。 マズローの自己実現理論と同様に、階層を上に進むには、まず下位の各レベルが対処されていることを確認する必要があります。 このラーニング パスでは、各レベルについて下から順に説明します。

監視

このレベルは、他のレベルの基礎となる重要な基盤です。 これは、客観的なデータに関する組織の信頼性について具体的な会話を可能にする情報源です。 変更を加えると、このプラクティスでは、その影響がわかります。 より厳密に言えば、このプラクティスは、物事が良くなっているかどうかを知る方法です。 監視が安定するまで、残りの作業を行うことはできません。

インシデント対応

どんな運用環境でも、なんらかの機能が停止するものです。 この事実に異議はありません。 そこで問われるのは、"インシデントが発生したら何をするのか。 システムがダウンして、お客様が影響を受けたらどうなるのか" です。問題に優先順位を付け、適切なリソースを活用して、問題を軽減するのに効果的な標準プロセスが必要です。 同時に、問題について利害関係者と確実にコミュニケーションがとれているかどうかも確認します。

インシデント後の確認 (失敗から学ぶ)

これは、重要なインシデントごとに経験をまとめて調査、見直し、議論することによって、運用プラクティスをレベルアップできるようにするプロセスです。 インシデントの事後レビューにより失敗から学ぶことができるため、信頼性の高い作業に不可欠です。

テストとリリース (デプロイ)

次の上のレベルでは、テスト、リリース、およびデプロイ プロセスに焦点を当てます。 このレベルは、"インシデントが発生する前に問題を捕捉できるシステムとプロセスをどれほどうまく作成できるか" と考えることができます。

容量計画とスケーリング

成功とそれに伴う成長は、システムの問題と同じくらい信頼性に対する脅威となる可能性があります。 お客様は、コードにバグがあってダウンしたシステムと、多数の人が同時にアクセスしようとして負荷を処理できなくなったためにダウンしたシステムの違いを見分けることができません。 階層のこのレベルでは、その脅威に対処する方法として、容量計画とスケーリングに注意を払う必要があります。

開発プロセスとユーザー エクスペリエンス

階層には、"信頼性の向上" ラーニング パスの対象ではないレベルがさらに 2 つあります。開発プロセスと優れたユーザーエクスペリエンス (UX) を作成するための作業です。 この 2 つのテーマについては "信頼性の向上" ラーニング パスで取り上げませんが、これらのテーマに関する優れた Learn モジュールが別にあります。

信頼性の階層の各レベルについては、個別の Learn モジュールが用意されています。 このラーニング パスの 5 つのモジュールすべてを利用することをお勧めします。

自分の知識をチェックする

1.

ディッカーソンの信頼性の階層の第 1 の基本レベルはどれですか。