Postmortems irrepreensíveis

Concluído

As organizações que praticam DevOps querem ver erros e erros com o objetivo de aprender. Ter post-mortems irrepreensíveis em interrupções e acidentes faz parte desse objetivo.

Ter uma cultura justa significa que você está fazendo um esforço para equilibrar segurança e responsabilidade. Isso significa que, ao investigar erros de uma forma que se concentre nos aspetos situacionais de um fracasso e no processo de tomada de decisão de indivíduos próximos ao fracasso, uma organização pode sair mais segura do que se tivesse punido as pessoas envolvidas.

Um post mortem irrepreensível significa que os engenheiros cujas ações contribuíram para um acidente podem dar conta pormenorizadamente de:

  • Que medidas tomaram em que momento.
  • Que efeitos observaram.
  • Que expectativas tinham.
  • Que pressupostos fizeram.
  • Sua compreensão da linha do tempo dos eventos como eles ocorreram.

É importante que eles possam dar esse relato detalhado sem medo de punição ou represálias.

Um engenheiro que pensa que vai ser repreendido não tem incentivo para dar uma conta realista e precisa do problema. Não entender como ocorreu um acidente garante que ele vai acontecer novamente, se não com o engenheiro original, então com outra pessoa.

"Temos de nos esforçar para entender que os acidentes não acontecem porque as pessoas jogam e perdem. Os acidentes acontecem porque a pessoa acredita que:

... o que está prestes a acontecer não é possível, ... o que está prestes a acontecer não tem nenhuma conexão com o que eles estão fazendo, ... ou que a possibilidade de obter o resultado pretendido vale a pena, seja qual for o risco."

Erik Hollnagel

Permitir que os engenheiros sejam donos de suas próprias histórias

Uma coisa engraçada acontece quando os engenheiros cometem erros e se sentem seguros ao dar detalhes sobre isso. Eles não estão apenas dispostos a serem responsabilizados, eles também estão entusiasmados em ajudar o resto da empresa a evitar o mesmo erro no futuro. Afinal, são os que têm mais experiência quando se trata do erro. Deveriam estar fortemente envolvidos na elaboração da remediação.

Como faço para habilitar uma "cultura justa"?

  • Incentive a aprendizagem através de post-mortems irrepreensíveis em interrupções e acidentes.
  • Lembre-se de que o objetivo é entender como um acidente poderia ter acontecido, a fim de nos equiparmos melhor para que ele aconteça no futuro.
  • Reúna detalhes de várias perspetivas sobre falhas e não puna as pessoas por cometerem erros.
  • Em vez de punir os engenheiros, dê-lhes a autoridade necessária para melhorar a segurança, permitindo-lhes prestar contas pormenorizadas das suas contribuições para as falhas.
  • Capacite e incentive as pessoas que cometem erros a serem especialistas em educar o resto da organização sobre como não cometê-los no futuro.
  • Aceite que há sempre um espaço discricionário onde os seres humanos podem decidir agir ou não agir, e que a avaliação dessas decisões está em retrospetiva.
  • Aceite que o viés retrospetivo pode turvar nossa avaliação de eventos passados, então trabalhe duro para eliminá-lo.
  • Aceite que o erro de atribuição fundamental também é difícil de escapar, por isso concentre-se no ambiente e nas circunstâncias em que as pessoas estão trabalhando ao investigar acidentes.
  • Esforce-se para garantir que a extremidade contundente (por exemplo, conselhos ou liderança sênior) da organização entenda como o trabalho está realmente sendo feito. Compare isso com como eles imaginam que está sendo feito, através de gráficos de Gantt e procedimentos na ponta afiada (por exemplo, engenheiros e tecnologia).
  • A ponta afiada deve informar a organização onde está a linha entre o comportamento apropriado e inadequado. Isso não é algo que o fim contundente possa inventar por si só.

O fracasso acontece. Para entender como os fracassos acontecem, primeiro temos que entender nossas reações ao fracasso.