A importância da resposta a incidentes

Concluído

Com base nos princípios e nas práticas de monitoramento discutidos em outro módulo deste roteiro de aprendizagem, você aprenderá o que fazer quando o monitoramento revelar um problema. Se você receber um alerta acionável notificando que seus sistemas não estão operando conforme o esperado, esse é o gatilho de uma resposta para lidar com o problema.

O que é um incidente?

A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; nem mesmo todos os engenheiros concordam sobre o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.

Algumas delas rotularão todas as interrupções como incidentes, independentemente de os clientes serem ou não afetados. No contexto desse módulo, podemos concordar que um incidente é definido como uma interrupção de serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços dos quais eles dependem. Os exemplos incluem quando os sistemas estão inativos ou estão funcionando incorretamente de modo que afeta os clientes.

O que é resposta a incidentes?

A prevenção de todos os problemas é uma meta louvável, mas impossível. As coisas eventualmente darão errado, portanto, precisamos de um plano para limitar o impacto sobre nossos usuários finais e retornar as operações ao normal o mais rápido possível.

A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e com base no momento presente, sem considerar os efeitos de longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.

Sua abordagem de resposta a incidentes determina sua eficácia em:

  • Entender o que está acontecendo (diagnosticar o problema).
  • Triagem (determinar a urgência) e priorização do problema.
  • Envolver os recursos certos para atenuar os problemas.
  • Comunicar-se com os stakeholders sobre o problema.

Depois de corrigir o problema, você poderá aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante, que é objeto de um módulo separado inteiro e que vale a pena discutir.

Como medir o desempenho de resposta a incidentes

Você deve estar familiarizado com o acrônimo TTR, que pode ser definido como "tempo para recuperar", "tempo para corrigir" ou "tempo para restaurar". Todas essas variantes se referem à mesma coisa: a quantidade total de tempo que leva para que você coloque os serviços de volta em uma condição em que eles possam voltar a atender às expectativas dos clientes.

Essa métrica é uma forma de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menor será o impacto que a interrupção ou o serviço degradado terá.

É importante saber como sua organização está lidando com a resposta a incidentes. A cada ano, a organização DORA (DevOps Research and Assessment) libera um relatório de Estado de DevOps. Algumas descobertas importantes no relatório de 2019 focaram no desempenho da resposta a incidentes.

  • O relatório classificou as equipes de engenharia capazes de detectar interrupções de serviço, responder a elas e corrigi-las em menos de uma hora como de " desempenho alto ou de elite".
  • Aquelas que conseguiram se recuperar de incidentes em menos de 24 horas foram classificadas como de "desempenho médio".
  • As de "baixo desempenho" são aquelas que levam entre uma semana e um mês para se recuperar de interrupções de serviço.

A diferença entre esses níveis é significativa. O estudo constatou que as equipes de elite/desempenho alto se recuperam de incidentes 2.604 vezes mais rapidamente do que seus pares de "desempenho baixo". As equipes de elite/alto desempenho também estão implantando para produção com uma frequência 208 vezes maior.

Por que e como as equipes com desempenho de elite respondem e se recuperam muito mais rapidamente do que o restante? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta de base já em vigor quando as coisas inevitavelmente dão errado.

Ao percorrer este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano base.

Verificar seu conhecimento

1.

Qual das alternativas a seguir é uma meta para uma resposta a incidentes eficaz?

2.

Com que rapidez as equipes de engenharia que são classificadas como de "desempenho alto ou de elite" geralmente detectam as interrupções de serviço, respondem a elas e as corrigem?