Porquê aprender com os incidentes?

Concluído

Quando ocorre um incidente, sua primeira reação provavelmente não é: "Hurray, uma oportunidade de aprendizado!" Sua prioridade imediata é descobrir o que deu errado e corrigi-lo o mais rápido possível, para reduzir o impacto em seus clientes e usuários finais, como deve ser. Este é o processo incidente-resposta que discutimos em outro módulo neste caminho de aprendizagem.

No entanto, uma vez resolvido o incidente, é importante acompanhar e beneficiar da experiência. Se não tivermos tempo para aprender com o incidente, então ele continua sendo apenas uma perda de tempo, dinheiro, reputação e assim por diante; Mas se esse incidente pode ser uma fonte de informação (da forma como nenhuma outra fonte pode), podemos realmente tirar algum benefício dele.

A revisão pós-incidente faz parte da fase de análise do ciclo de vida incidente-resposta. Nem todas as avaliações pós-incidente são iguais. Existem diferentes maneiras de abordar o processo, e muito foco em certos aspetos do problema ou enquadrar as perguntas de maneira errada pode reduzir o valor da avaliação.

Nesta unidade, você começará a pensar não apenas no porquê, mas também em como você pode aprender melhor com os incidentes. Expandiremos o "como" nas unidades subsequentes.

Sistemas complexos falham

Você deve "aprender a aprender" com o fracasso não no caso de os seus sistemas falharem, mas porque é certo que os seus sistemas irão falhar.

No mundo moderno, a maioria dos sistemas com os quais trabalhamos hoje, especialmente em um ambiente de nuvem, é complexa. Eles são compostos por muitas partes interconectadas que precisam trabalhar juntas, e o comportamento geral do sistema vem da interação dessas partes tanto quanto das próprias partes individuais.

Confiabilidade é o fio condutor que percorre todo esse caminho de aprendizagem, mas sistemas complexos nunca são cem por cento confiáveis. Tais sistemas comportam-se de formas interessantes e contraintuitivas. Eles são compostos por muitas partes, e muitas vezes o comportamento do sistema vem das interações entre essas partes tanto quanto das próprias partes.

Para uma discussão mais aprofundada deste tópico, um bom recurso é o artigo intitulado How Complex Systems Fail do Dr. Richard I. Cook. Ele é um anestesiologista e pesquisador que passou décadas trabalhando na segurança em sistemas complexos, especificamente na segurança do paciente no sistema de saúde. Neste artigo, ele explica o que é comum a sistemas complexos em todos os campos, da saúde às operações de software.

Alguns de seus pontos-chave são particularmente relevantes para o processo de análise de incidentes e revisão pós-incidente:

  • Sistemas complexos contêm misturas variáveis de falhas latentes dentro deles. É impossível que seus sistemas sejam executados sem a presença de várias falhas. As falhas mudam constantemente por causa da mudança da tecnologia, da organização do trabalho e dos esforços para erradicar o fracasso. O seu sistema nunca está a funcionar perfeitamente.
  • Sistemas complexos são executados em modo degradado. Sistemas complexos estão sempre funcionando como sistemas "quebrados". Continuam a "trabalhar" nesse estado porque contêm muitas redundâncias e as pessoas podem mantê-los funcionando apesar da presença de muitas falhas. As operações do sistema são dinâmicas, com componentes continuamente falhando e sendo substituídos.
  • A catástrofe está sempre ao virar da esquina. A complexidade desses sistemas significa que grandes falhas do sistema são, a longo prazo, inevitáveis. Sistemas complexos sempre possuem o potencial de falhas catastróficas, e isso pode acontecer a qualquer momento. É impossível eliminar esse potencial porque faz parte da natureza inerente do sistema.

Prevenção e resposta

Em seus esforços para alcançar o nível desejado de confiabilidade para seus sistemas e serviços, você faz todo o possível para evitar que incidentes ocorram. No entanto, devido à complexidade desses sistemas, como explicado anteriormente, a prevenção nem sempre é possível.

Por causa dessa perceção, temos que adotar uma abordagem dupla para o fracasso: prevenção e, quando isso não é possível, preparação para responder de forma rápida e eficaz.

A prevenção e a resposta estão interligadas. Você pode ter experimentado isso quando sua organização implantou uma automação sofisticada que funcionou na maioria das vezes. Era ótimo que funcionasse a maior parte do tempo, mas quando falhava, provavelmente falhava de forma espetacular, o que tornava mais difícil para os operadores entenderem o que tinha dado errado.

Os sistemas em que você trabalha são compostos por mais do que a tecnologia. Na verdade, você não trabalha "em" ou "com" um sistema; você trabalha no sistema. Você faz parte do sistema. Sistemas complexos incluem componentes técnicos (hardware, software) e componentes humanos (pessoas e suas personalidades, treinamento e conhecimento). Os nossos sistemas são sistemas que incluem humanos, e a forma como os humanos reagem quando as coisas correm mal é tão importante como evitar que as coisas corram mal.

Idioma

A língua é importante. Você aprenderá neste módulo que seremos muito específicos sobre quais termos usamos e quais não usamos intencionalmente.

As palavras que usamos afetam a forma como pensamos sobre o que aconteceu em um incidente e podem mudar drasticamente o que e o quanto aprendemos. Esta descoberta vem de pesquisas em indústrias críticas para a segurança, como aviação, medicina, busca e salvamento, combate a incêndios e muito mais.

Coletivamente, este campo de pesquisa tornou-se conhecido como Resilience Engineering (RE).

Temos muito a aprender sobre Engenharia de Resiliência no setor de tecnologia. Mais adiante neste módulo, compartilharemos algumas coisas realmente úteis que aprendemos com a literatura de RE, incluindo quatro das armadilhas mais comuns em que as pessoas caem quando tentam aprender com o fracasso; Mas, primeiro, precisamos definir alguns termos.