Análisis post-mortem sin culpables

Completado

Las organizaciones que practican DevOps quieren ver los fallos y errores con un objetivo de aprendizaje. El hecho de tener análisis post-mortem sin culpables en las interrupciones y accidentes forma parte de ese objetivo.

El hecho de tener una referencia cultural significa que está realizando un esfuerzo por equilibrar la seguridad y la responsabilidad. Esto significa que, al investigar los errores centrándose en los aspectos de la situación de un error y en el proceso de toma de decisiones de los usuarios cercanos a este error, una organización puede volverse más segura de lo que sería si se hubiera castigado a las personas implicadas.

Un análisis post-mortem sin culpables significa que los ingenieros cuyas acciones han contribuido a un accidente pueden indicar con detalle lo siguiente:

  • Las acciones que han tomado y en qué momento.
  • Los efectos que han observado.
  • Las expectativas que tenían.
  • Las suposiciones que han hecho.
  • Sus conocimiento de la escala de tiempo de los eventos a medida que se han producido.

Es importante que puedan proporcionar este nivel de detalle sin miedo a castigos o represalias.

Un ingeniero que cree que se le va a reprender no tiene ningún incentivo para informar de forma realista y precisa del problema. No comprender cómo se ha producido un accidente solo garantiza que se volverá a producirse, ya sea con el ingeniero original o con otra persona.

"Debemos esforzarnos por comprender que los accidentes no se producen porque las personas apuesten y pierdan. Se producen porque la persona considera que:

... lo que va a ocurrir no es posible,... lo que va a ocurrir no tiene conexión con lo que están haciendo... o que la posibilidad de obtener el resultado previsto merece la pena, sin importar el riesgo en el que se incurra".

Erik Hollnagel

Habilitación a los ingenieros para que sean propietarios de sus propios casos

Cuando los ingenieros cometen errores y se sienten seguros al proporcionar detalles sobre ello, ocurre algo divertido. No solo están dispuestos a ser responsables, sino que también se muestran entusiastas en ayudar al resto de la empresa a evitar que se produzca el mismo error en el futuro. A fin de cuentas, son los que tienen mayor experiencia en cuanto al error. Deberían estar muy implicados en la elaboración de correcciones.

¿Cómo se habilita una "referencia cultural"?

  • Fomente el aprendizaje mediante análisis post-mortem sin culpables en las interrupciones y accidentes.
  • Recuerde que el objetivo es comprender cómo podría haberse producido un accidente con el fin de prepararse mejor por si vuelve a producirse en el futuro.
  • Recopile detalles sobre los errores desde varias perspectivas y no castigue a los usuarios cuando cometan fallos.
  • En lugar de castigar a los ingenieros, concédales la autoridad necesaria para mejorar la seguridad, permitiéndoles que proporcionen información detallada de sus contribuciones a los errores.
  • Habilite y anime a las personas que cometen errores a que sean los expertos en educar al resto de la organización sobre cómo no cometerlos en el futuro.
  • Acepte que siempre haya un espacio discrecional en el que los seres humanos puedan decidir si actúan o no, y que la evaluación de esas decisiones se produce de forma retrospectiva.
  • Acepte que el sesgo de retrospectiva puede mostrar en la nube nuestra evaluación de eventos pasados, por lo que debe trabajar duro para eliminarlo.
  • Acepte que el error de atribución fundamental también es difícil de evitar, así que céntrese en el entorno y las circunstancias en las que trabajan los usuarios al investigar accidentes.
  • Esfuércese para asegurarse de que el fin del proceso (por ejemplo, los consejos o la dirección superior) de la organización comprende cómo se realiza realmente el trabajo. Compare esto con el modo en que imaginan que se está haciendo, mediante los gráficos de Gantt y los procedimientos en la cúspide de la pirámide (por ejemplo, ingenieros y tecnología).
  • La cúspide de la pirámide debe informar a la organización dónde está la línea que divide un comportamiento adecuado de uno inadecuado. Esto no es algo que la base de la pirámide pueda elaborar por sí misma.

Los errores ocurren. Con el fin de comprender cómo se producen los errores, primero tenemos que comprender nuestras reacciones ante estos.