Práticas úteis para aprender com falhas
Agora que você já conhece algumas das armadilhas comuns que podem sabotar ou, pelo menos, limitar o valor que você pode obter das revisões pós-incidente, a próxima pergunta lógica é "o que você deve fazer?"
Nesta unidade, você aprenderá sobre quatro práticas úteis que podem melhorar o processo de análise pós-incidente.
Prática 1: Executar uma revisão pós-incidente facilitada
Você já sabe que uma revisão pós-incidente não é um documento ou um relatório, mas preferencialmente uma conversa. Portanto, se apenas uma pessoa escrever uma "análise posterior" do que aconteceu sem nenhuma discussão, isso não será uma revisão útil pós-incidente. Não importa o quanto conhecimento essa pessoa tenha nem o grau de envolvimento no incidente, pouca coisa será aprendida se tudo vier de um único ponto de vista.
Reunir todos os envolvidos no incidente ao mesmo tempo é a primeira etapa. Geralmente, é útil ter um facilitador nessa reunião que pode ajudar a orientar a discussão. O facilitador deve ser alguém neutro de preferência, que não participou de fato do incidente. Todos aprenderão mais se o facilitador parecer não ter nenhuma ideia preconcebida ou uma pauta pessoal para contar a história do incidente.
O formato exato da reunião dependerá da sua equipe, do agendamento e da natureza do incidente, mas a seguir estão algumas diretrizes básicas:
- Reuniões, não maratonas: As reuniões não precisam ser longas. Em geral, 60 a 90 minutos é o período de tempo máximo que a maioria das pessoas consegue se concentrar e participar com eficiência, portanto, limite a reunião a não mais que uma hora e meia.
- Preparação pré-reunião: Para aproveitar melhor o tempo de reunião, pode ser útil para o facilitador se preparar realizando entrevistas individuais com alguns dos membros da equipe de resposta para obter uma visão geral do incidente e das ideias sobre quais tópicos abordar na reunião. As entrevistas individuais podem ser relatadas para o grupo se houver preocupação sobre problemas interpessoais ou personalidades que dificultam a reunião (ou se as pessoas estiverem desconfortáveis em se apresentarem na frente da sala por qualquer motivo).
- Não é necessário para todos os incidentes: Este é um processo de aprendizado, e você está "aprendendo a aprender", então comece devagar. Você não precisa fazer isso para todos os incidentes. Você pode selecionar. Talvez você queira começar com incidentes menores ou começar com uma reunião de revisão apenas uma vez por mês.
A reunião de revisão pós-incidente é uma oportunidade de descobrir o que deu errado, o que foi feito certo e como lidar melhor com as falhas no futuro. A meta final é melhorar a confiabilidade.
Prática 2: Faça perguntas melhores
Você já sabe que a linguagem é importante e, na revisão pós-incidente, isso se aplica especialmente às perguntas que você faz. As perguntas objetivas geralmente provocarão respostas mais úteis.
Em especial, é melhor perguntar às pessoas "como" ou "o que" em vez de "por que".
Quando se pede para às pessoas explicarem "por que" fizeram algo ou "por que" algo aconteceu, elas normalmente ficam defensivas. Começar uma pergunta com "por que" muitas vezes é percebido como um julgamento, uma crítica ou uma acusação. Isso força as pessoas a justificarem as suas ações e elas nem sempre sabem por que fizeram algo ou por que algo aconteceu como resultado das ações delas. Também pode levar as pessoas a irem diretamente para a causa do problema ou uma conclusão, ignorando uma infinidade de informações que poderiam ser discutidas. Por exemplo, se você perguntar "por que o sistema parou de funcionar?", a resposta poderia ser "Porque o disco foi preenchido". Isso ignora perguntas importantes como "como você percebeu que havia um problema com o disco?" ou até mesmo "qual foi a primeira coisa que você verificou no sistema, o que o levou a verificar?"
Isso não significa que você não pode explorar os fatores contribuintes para o incidente ou o raciocínio que uma pessoa usou para decidir o que fazer em resposta a eles, isso significa apenas que você deve prestar atenção em como você faz essas perguntas:
Não pergunte "por que você fez isso?"
Em vez disso, pergunte "o que contribuiu para a sua decisão de fazer esta alteração?"
Não pergunte "por que isso não foi detectado no valor canário?"
Em vez disso, pergunte "Geralmente o valor canário é eficiente na detecção deste tipo de problema?"
Lembre-se de que a revisão pós-incidente é sobre o aprendizado. É provável que cada participante no incidente tenha uma visão um pouco diferente dos eventos. Você aprenderá mais se fizer perguntas que expõem esses vários pontos de vista e interpretações.
Muitas vezes, ao perguntar sobre como o trabalho "normalmente" acontece você aprenderá tanto quanto se perguntar sobre o incidente específico.
Para saber mais sobre como fazer perguntas melhores, confira este recurso:
Guia de facilitação do registro pós-evento do Etsy
Prática 3: Pergunte como tudo deu certo
Ao pensar em aprender com as falhas, você pode se esquecer de que, mesmo em uma grande interrupção ou em outro incidente, além do que deu errado, também existe o que deu certo. Diferente da nossa visão de incidentes como casos isolados ou produtos de condições extremas, na maioria dos sistemas mais complexos as coisas dão erradas por muitos dos mesmos motivos pelas quais elas dão certo.
Faz parte da natureza humana concentrar as perguntas no lado negativo da equação. No entanto, perguntar também como algo deu certo fornecerá insights que você não teria obtido de outra forma.
Não pergunte apenas como a interrupção aconteceu, também pergunte sobre como você se recuperou.
Você desejará saber quais insights, ferramentas, habilidades e pessoas ajudaram no esforço de recuperação. Você deve desejar reproduzir isso, portanto, essas informações são valiosas no planejamento do que fazer no futuro.
Nesse contexto, pergunte como as pessoas aprenderam o que elas sabem e com base em que elas tomaram as decisões que tomaram. Houve um momento crítico em que alguém compartilhou uma informação que ajudou a decifrar o quebra-cabeça do que estava acontecendo? Como eles sabiam que deveriam fazer isso? De onde vieram as informações?
Procure temas e padrões. Por fim, como parte do reconhecimento do que deu certo, pergunte "O que você sabe agora que não sabia antes?" Se o aprendizado foi resultante do incidente e dos processos de resposta e de revisão de incidentes, essa é outra coisa que deu certo.
Isso remete a um ponto anterior: temos que aprender sobre como melhorar a nossa capacidade de resposta, tanto quanto sobre como evitar interrupções.
Prática 4: Mantenha as reuniões de revisão e de planejamento separadas
Depois de resolver o incidente imediato, você naturalmente desejará (e deverá) falar sobre os itens de reparo e a mitigação futura, mas esses tópicos não devem fazer parte de sua reunião de revisão pós-incidente. A sua reunião de revisão pós-incidente tem uma finalidade e permitir a discussão de itens de reparo nessa reunião se desvia dessa finalidade.
O melhor plano é discutir os itens de reparo e planejar os problemas em uma reunião separada um ou dois dias após a revisão pós-incidente. Talvez você queira fazer isso com um grupo menor.
Isso ajudará de duas maneiras:
- Isso ajudará na revisão pós-incidente. Será mais fácil evitar tirar conclusões precipitadas se você não estiver concentrado em como consertar o problema.
- Permitir um dia ou dois de tempo de absorção ajudará a identificar os itens de reparo "com menos consumo de energia": energia mínima para impacto máximo. O seu subconsciente pode ajudar. Você só precisa dar tempo a ele.