Jerarquía de confiabilidad de Dickerson

Completado

El mapa de la ruta de aprendizaje de Mejora de la confiabilidad se basa en un modelo del mundo de la ingeniería de confiabilidad de sitios denominado Jerarquía de confiabilidad de Dickerson. Mikey Dickerson fue un SRE que se convirtió en el administrador fundador de la unidad tecnológica de élite de Estados Unidos, denominada United States Digital Service. Creó esta jerarquía mientras se enfrentaba a una de las mayores crisis de confiabilidad que había conocido nunca.

a diagram of a pyramid showing the seven levels of the hierarchy of reliability.

El modelo se basa en la jerarquía de las necesidades que determinan la motivación humana de Abraham Maslow. Al igual que con la jerarquía de Maslow, para progresar en esta otra jerarquía es necesario asegurarse de que antes se ha abordado cada uno de los niveles inferiores. Los niveles en los que nos centraremos en esta ruta de aprendizaje, de la parte inferior a la superior, son los siguientes:

Supervisión

Este nivel constituye los cimientos esenciales sobre los que descansan los demás niveles. Es la fuente de información que le permite tener conversaciones concretas sobre confiabilidad en la organización en torno a datos objetivos. Si realiza algún cambio, esta práctica le servirá para conocer el efecto. Dicho de otra forma, le ayudará a saber si las cosas están mejorando o no. Hasta que nuestra supervisión demuestre su solidez, no podrá realizar el resto del trabajo.

Respuesta a los incidentes

Todos los entornos de producción sufrirán una interrupción de algún tipo. Es un hecho que no admite discusión. Entonces, las preguntas son: "¿qué se puede hacer cuando hay un incidente? ¿Qué ocurre cuando los sistemas están inactivos y los clientes se ven afectados?" Necesita un proceso estándar que sea eficaz a la hora de clasificar el problema, lograr la implicación de los recursos adecuados y mitigar el incidente. Al mismo tiempo, también le convendrá asegurarse de que se comunica con las partes interesadas sobre el problema.

Revisión posterior al incidente (aprender de los errores)

Este es el proceso que nos permite mejorar nuestras prácticas de operaciones mediante la investigación, la revisión y la discusión colectivas de la experiencia que supone cada incidente significativo. La revisión posterior al incidente nos permite aprender de los errores y resulta fundamental para el trabajo de confiabilidad.

Pruebas y lanzamiento (implementación)

El siguiente nivel es un enfoque en nuestros procesos de pruebas, lanzamiento e implementación. Puede plantearse este nivel con la siguiente pregunta: "¿cómo de bien se me da crear los sistemas y los procesos que pueden detectar problemas antes de que causen incidentes?".

Planeamiento de la capacidad y escalado

El éxito y el crecimiento que éste comporta pueden representar una amenaza para la confiabilidad tanto como cualquier problema con un sistema. Un cliente no puede distinguir entre un sistema que está inactivo debido a hay un error en el código, de otro que no puede controlar la carga debido a que hay demasiadas personas intentando acceder al mismo tiempo. Este nivel de jerarquía nos lleva a prestar atención a la planeación de la capacidad y escalado como formas de abordar dicha amenaza.

Proceso de desarrollo y experiencia del usuario

Hay dos niveles más en la jerarquía que no se abordan en la ruta de aprendizaje Mejora de la confiabilidad: el proceso de desarrollo y el trabajo que supone crear una buena experiencia del usuario (UX). No hablaremos de estos dos temas en la ruta de aprendizaje Mejora de la confiabilidad, pero hay disponibles otros módulos de Learn adecuados sobre estos temas.

Hemos creado un módulo de Learn independiente para cada nivel de la jerarquía de confiabilidad. Esperamos que se una a nosotros para ver los cinco módulos de esta ruta de aprendizaje.

Comprobación de conocimientos

1.

¿Cuál es el primer nivel fundacional de la jerarquía de confiabilidad de Dickerson?