O que é uma revisão pós-incidente?

Concluído

Já mencionamos isso em um módulo anterior neste caminho de aprendizagem, mas como uma revisão rápida, os incidentes têm um ciclo de vida semelhante ao seguinte:

Diagrama de ciclo de círculos rotulados com fases por cima, onde os círculos estão conectados ao próximo círculo com uma seta indicando a transição de fase a fase

Um incidente passa por estas fases:

  • Detection: Quando notamos pela primeira vez que existe um problema (idealmente do nosso sistema de monitorização antes de um cliente perceber ou reclamar);
  • Resposta: Agimos, envolvemos o nosso processo de resposta a incidentes, tentamos triar a situação e responder com urgência.
  • Remediação: Trabalhamos para determinar o problema e restaurar o funcionamento do sistema ou serviço.
  • Análise: Após o incidente, tentamos aprender com a experiência, talvez determinando coisas que podemos querer mudar no sistema ou no nosso processo.
  • Readiness: Fazemos mudanças com base no que aprendemos que podem melhorar a nossa fiabilidade e o contexto (processos e outros aspetos) à sua volta.

O tópico deste módulo ocorre em grande parte durante a fase de análise. Aprendemos com os incidentes conduzindo uma revisão pós-incidente.

Você deve fazer uma revisão pós-incidente após cada incidente significativo.

Embora a revisão formal ocorra após as fases de resposta e remediação, você começa a preparar o terreno para sua análise assim que recebe um alerta acionável de que um incidente ocorreu, informa os membros da equipe e inicia uma conversa sobre o incidente.

Definição da revisão pós-incidente

Nem todos usam exatamente a mesma linguagem para se referir a esse processo. Algumas pessoas chamam-lhe:

  • Revisão pós-incidente
  • Revisão da aprendizagem pós-incidente
  • Autópsia
  • Retrospetiva

Neste módulo, usaremos o termo "revisão pós-incidente".

Além disso, nem todos fazem exatamente da mesma maneira. Por exemplo, muitas pessoas começam colocando todas as pessoas que tiveram alguma conexão com o incidente em uma sala, enquanto outras pessoas optam por criar a avaliação por meio de entrevistas individuais e, em seguida, relatar ao grupo.

O último método geralmente funciona melhor quando as configurações de grupo em sua organização dificultam uma única reunião maior. Por exemplo, se a dinâmica de grupo, as personalidades, a natureza distribuída de uma equipe espalhada por fusos horários interferem em ter esse tipo de reunião, pode ser mais fácil trabalhar na revisão de uma maneira diferente. Você deve fazer o que funciona melhor para sua equipe e as circunstâncias.

Seja como for que lhe chame e como quer que o organize, há três pontos-chave:

  • Você deve tentar incluir todos os envolvidos na resposta ao incidente na revisão pós-incidente. Incluir todas essas vozes é importante porque pessoas diferentes terão perspetivas e lembranças diferentes do mesmo evento.
  • Você deve realizar o de revisão pós-incidente dentro de vinte e quatro a trinta e seis horas após o evento, se possível. A neurociência confirmou que a memória humana é notoriamente pouco confiável; as pessoas esquecem-se das coisas. Quanto mais tempo passa após um evento, menos detalhadas e específicas tendem a ser as memórias.
  • Uma revisão de incidentes deve ser isenta de culpa. Falaremos mais sobre isso na próxima unidade.

Objetivo da revisão pós-incidente

O objetivo da revisão pós-incidente é para que sua equipe possa aprender e melhorar. Você quer aprender sobre os sistemas e sobre as coisas que você colocou em prática que funcionaram ou não funcionaram, para que você possa fazer melhorias.

Ao mesmo tempo, você deve lembrar que os itens de ação que você gera – relatórios, tarefas, relatórios de bugs, tickets, feedback – são úteis, mas são periféricos ao ponto do processo, que é aprender e melhorar. A geração de uma lista de itens de ação é, na melhor das hipóteses, um objetivo secundário.