O que é uma revisão pós-incidente?

Concluído

Mencionamos isso em um módulo anterior neste roteiro de aprendizagem, mas faremos uma revisão rápida: os incidentes têm um ciclo de vida semelhante a este:

Diagrama de ciclo dos círculos rotulados com as fases acima, com os círculos conectados ao próximo círculo com uma seta que liga uma fase à outra

Um incidente passa por estas fases:

  • Detecção: Quando observamos que há um problema pela primeira vez (idealmente, no nosso sistema de monitoramento antes de notificações ou reclamações do cliente);
  • Resposta: Começamos a agir, envolvemos nosso processo de resposta a incidentes, tentamos fazer uma triagem da situação e responder com urgência.
  • Correção: Trabalhamos para determinar o problema e para colocar o sistema ou o serviço em funcionamento novamente.
  • Análise: Após o incidente, tentamos aprender com a experiência, talvez determinando o que devemos alterar no sistema ou em nosso processo.
  • Preparação: Fazemos alterações com base no que aprendemos que pode melhorar a nossa confiabilidade e o contexto (processos e assim por diante) em relação a ele.

O tópico deste módulo ocorre em grande parte durante a fase de análise. Aprendemos com incidentes realizando uma revisão pós-incidente.

Você deve fazer uma revisão pós-incidente após cada incidente significativo.

Embora a revisão formal ocorra após as fases de resposta e correção, você começa a preparar a sua análise assim que receber um alerta acionável de que um incidente ocorreu, informa aos membros da equipe e começa uma conversa sobre o incidente.

Definindo a revisão pós-incidente

Nem todos usam exatamente a mesma linguagem para se referirem a esse processo. Algumas pessoas chamam isso de:

  • Revisão pós-incidente
  • Revisão de aprendizado pós-incidente
  • Análise posterior
  • Retrospectiva

Neste módulo, nós vamos usar o termo "revisão pós-incidente".

Além disso, nem todos fazem isso exatamente da mesma maneira. Por exemplo, muitas pessoas começam reunindo todos que tiveram qualquer conexão com o incidente em um quarto, enquanto outras pessoas optam por criar a revisão por meio de entrevistas individuais e depois relatar ao grupo.

O último método geralmente funciona melhor quando as configurações de grupo na sua organização dificultam a realização de uma reunião maior. Por exemplo, se as dinâmicas do grupo, as personalidades, a natureza distribuída de uma equipe espalhada em fusos horários interferirem nesse tipo de reunião, poderá ser mais fácil realizar a revisão de outra forma. Você deve fazer o que funciona melhor para a sua equipe e nas circunstâncias.

Independentemente de como você chamar ou organizá-la, haverá três pontos principais:

  • Você deve tentar incluir todos que estavam envolvidos na resposta do incidente na revisão pós-incidente. Incluir todas essas vozes é importante porque pessoas diferentes terão perspectivas e lembranças diferentes do mesmo evento.
  • Você deve executar a revisão pós-incidente dentro de 24 a 36 horas depois do evento, se possível. A neurociência confirmou que a memória humana é notoriamente não confiável: as pessoas esquecem as coisas. Quanto mais tempo passar após um evento, menos detalhadas e específicas as memórias tendem a ser.
  • Uma revisão de incidente não precisa apontar culpados. Falaremos mais sobre isso na próxima unidade.

Finalidade da revisão pós-incidente

A meta da revisão pós-incidente é que a sua equipe possa aprender e melhorar. Você deseja aprender sobre os sistemas e sobre o que você colocou em vigor que funcionou ou não funcionou, para que você possa fazer melhorias.

Ao mesmo tempo, você deve se lembrar de que os itens de ação que você gera (relatórios, tarefas, relatórios de bugs, tíquetes, comentários) são úteis, mas estão à margem da finalidade do processo, que é aprender e melhorar. A geração de uma lista de itens de ação é, no máximo, uma meta secundária.

Verificar seu conhecimento

1.

Qual das opções a seguir é o nome correto para o processo que nos ajuda a aprender com a falha?

2.

Uma revisão pós-incidente ocorre durante qual fase do ciclo de vida do incidente?

3.

Idealmente, quando você deve fazer uma revisão pós-incidente?