Por que aprender com incidentes?

Concluído

Quando ocorre um incidente, a sua primeira reação provavelmente não é, "Ótimo, uma oportunidade de aprendizado!" A sua prioridade imediata é descobrir o que deu errado e corrigir isso o mais rápido possível, para reduzir o impacto nos seus clientes e usuários finais, como deveria ser. Esse é o processo de resposta a incidentes que discutimos em outro módulo neste roteiro de aprendizagem.

No entanto, depois de resolver incidente, é importante acompanhar e aproveitar a experiência. Se não dedicarmos um tempo para aprender com o incidente, ele permanecerá apenas uma perda de tempo, dinheiro, reputação e assim por diante; mas se esse incidente puder ser uma fonte de informação (da maneira que nenhuma outra fonte pode) poderemos de fato tirar algum benefício dele.

A revisão pós-incidente faz parte da fase de análise do ciclo de vida de resposta a incidentes. Nem todas as revisões pós-incidente são criadas da mesma forma. Há diferentes maneiras de abordar o processo e muito foco em determinados aspectos do problema ou fazer as perguntas da forma errada podem diminuir o valor da revisão.

Nesta unidade, você começará a pensar não apenas no porquê, mas também em como aprender melhor com os incidentes. Expandiremos o "como" nas unidades seguintes.

Sistemas complexos falham

Você precisa "aprender a aprender" com as falhas, não porque os seus sistemas podem falhar, mas porque é uma certeza que os seus sistemas falharão.

No mundo moderno, a maioria dos sistemas com os quais trabalhamos hoje, especialmente em um ambiente de nuvem, é complexa. Eles são compostos por muitas partes interconectadas que precisam trabalhar em conjunto e o comportamento geral do sistema é decorrente da interação dessas partes, tanto quanto das próprias partes individuais.

A confiabilidade é o fio condutor desse roteiro de aprendizagem, mas sistemas complexos nunca são 100% confiáveis. Tais sistemas se comportam de maneiras interessantes e contraintuitivas. Eles são compostos por muitas partes e, muitas vezes, o comportamento do sistema é decorrente das interações entre essas partes tanto quanto das próprias partes.

Para uma discussão mais detalhada sobre este tópico, um bom recurso é o artigo intitulado Como sistemas complexos falham do Dr. Richard I. Cook. Ele é um anestesista e um pesquisador que passou décadas trabalhando com segurança em sistemas complexos, especificamente com a segurança de pacientes no sistema de saúde. Nesse artigo, ele explica o que sistemas complexos em todos os campos têm em comum, desde serviços de saúde até operações de software.

Alguns dos seus principais pontos são especialmente relevantes para a análise de incidentes e o processo de revisão pós-incidente:

  • Sistemas complexos contêm uma mistura de falhas variáveis latentes dentro deles. É impossível que os seus sistemas sejam executados sem a presença de várias falhas. As falhas mudam constantemente devido às mudanças na tecnologia, à organização do trabalho e aos esforços para erradicar falhas. O seu sistema nunca está funcionando perfeitamente.
  • Sistemas complexos são executados no modo degradado. Os sistemas complexos estão sempre sendo executados como sistemas "com defeitos". Eles continuam "funcionando" nesse estado porque contêm muitas redundâncias e pessoas podem mantê-los funcionando apesar da presença de muitas falhas. As operações do sistema são dinâmicas e os componentes falham e são substituídos continuamente.
  • A catástrofe está sempre à espreita. A complexidade desses sistemas significa que grandes falhas no sistema são, em longo prazo, inevitáveis. Sistemas complexos sempre têm o potencial de falha catastrófica e isso pode acontecer a qualquer momento. É impossível eliminar esse potencial porque isso faz parte da natureza inerente ao sistema.

Prevenção e resposta

Nos esforços para obter o nível desejado de confiabilidade dos sistemas e serviços, você faz todo o possível para evitar que incidentes ocorram. No entanto, devido à complexidade desses sistemas, conforme explicado anteriormente, a prevenção nem sempre é possível.

Devido a essa percepção, temos que adotar uma abordagem para falhas em duas frentes: prevenção e, quando isso não for possível, preparação para resposta, de maneira rápida e eficaz.

A prevenção e a resposta estão interligadas. Você deve ter experimentado isso quando a sua organização implantou uma peça sofisticada da automação que funcionou na maior parte do tempo. Foi ótimo que ela funcionou na maior parte do tempo, mas quando ela falhou, provavelmente falhou espetacularmente e dificultou que os operadores entendessem o que tinha dado errado.

Os sistemas nos quais você trabalha são compostos por mais do que a tecnologia. Na verdade, você não trabalha "em" ou "com" um sistema, você trabalha dentro de um sistema. Você faz parte do sistema. Sistemas complexos incluem componentes técnicos (hardware, software) e componentes humanos (pessoas e as personalidades, o treinamento e o conhecimento delas). Nossos sistemas incluem seres humanos e a maneira como eles respondem quando algo dá errado é tão importante quanto impedir que algo dê errado em primeiro lugar.

Linguagem

A linguagem é importante. Você aprenderá neste módulo que seremos muito específicos sobre quais os termos usamos e quais intencionalmente não usamos.

As palavras que usamos afetam a forma como pensamos no que aconteceu em um incidente e podem alterar drasticamente o que e quanto aprendemos. Essa descoberta é decorrente de pesquisa em setores críticos de segurança, como aviação, medicina, busca e resgate, combate a incêndios e muito mais.

Coletivamente, esse campo de pesquisa se tornou conhecido como RE (Engenharia de Resiliência).

Temos muito a aprender sobre a Engenharia de Resiliência no setor técnico. Mais adiante neste módulo, vamos compartilhar algumas coisas muito úteis que aprendemos com a literatura da RE, incluindo as quatro armadilhas mais comuns que as pessoas caem ao tentar aprender com as falhas, mas antes, precisamos definir alguns termos.

Verificar seu conhecimento

1.

Quais dessas declarações NÃO são verdadeiras sobre sistemas complexos?

2.

Qual é a função das pessoas em sistemas complexos?