Importância da resposta a incidentes
Com base nos princípios e nas práticas de monitorização analisados noutro módulo deste percurso de aprendizagem, vai agora saber o que deve fazer quando a sua monitorização constata um problema. Se receber um alerta acionável com a notificação de que os seus sistemas não estão a funcionar conforme esperado, isso indica que há a necessidade de uma resposta para lidar com o problema.
O que é um incidente?
A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva. Mesmo entre engenheiros existe discórdia sobre o que é um incidente. Se colocarmos a pergunta em diferentes indústrias e organizações, é possível obter muitas respostas diferentes.
Alguns consideram que incidentes são todos os tipos de perturbações, sejam os clientes afetados ou não. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção do serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele confia. Alguns exemplos incluem quando os sistemas estão em baixo ou a funcionar incorretamente, de uma forma que afeta os clientes.
O que é a resposta a incidentes?
Prevenir todos os problemas é um objetivo louvável, mas impossível. Os problemas irão acontecer, por isso precisamos de um plano para limitar o impacto nos nossos utilizadores finais e recuperar as operações ao normal o mais rapidamente possível.
A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.
A sua abordagem de resposta a incidentes determina a sua eficácia em:
- Entender o que está acontecendo (diagnosticar o problema).
- Triagem (determinação da urgência) e priorização do problema.
- Envolver os recursos certos para mitigar o(s) problema(s).
- Comunicar com as partes interessadas sobre o problema.
Depois de remediar o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Trata-se de um assunto importante abordado num módulo separado, que vale a pena ser debatido.
Medir o desempenho da resposta ao incidente
Você pode estar familiarizado com a sigla TTR, que é variadamente definida como "tempo para recuperar", "tempo para remediar" ou "tempo para restaurar". Todas essas variantes se referem à mesma coisa: a quantidade total de tempo que você leva para trazer os serviços de volta a um lugar onde eles possam voltar a atender às expectativas dos clientes.
Esta métrica é uma forma de medir o desempenho das equipas na resposta aos incidentes. Quanto mais rápido recuperar/remediar/restaurar o serviço, menor será o impacto que a interrupção ou o serviço degradado terão.
É importante saber o quão bem sua organização está lidando com a resposta a incidentes. Todos os anos, a organização DevOps Research and Assessment (DORA) publica um relatório State of DevOps. Algumas das descobertas principais do relatório de 2019 centraram-se no desempenho da resposta a incidentes.
- O relatório classificou as equipes de engenharia que podem detetar, responder e remediar interrupções de serviço em menos de uma hora como "elites ou de alto desempenho".
- Aqueles que conseguiram se recuperar de incidentes em menos de 24 horas foram classificados como "de desempenho médio".
- Os "de baixo desempenho" são aqueles que levam entre uma semana e um mês para se recuperar de interrupções no serviço.
A diferença entre estes níveis é significativa. O estudo descobriu que as equipes de elite/alto desempenho se recuperam de incidentes 2.604 vezes mais rapidamente do que seus colegas de "baixo desempenho". As equipas com elevado/alto desempenho também estão a implementar em produção com 208 vezes maior frequência.
Por que motivo e de que forma é que os engenheiros com elevado desempenho respondem e recuperam muito mais depressa do que os restantes? Acontece parcialmente porque compreendem a importância de ter um bom plano de resposta de base já em vigor quando os problemas surgem inevitavelmente.
À medida que avança neste módulo, irá aprender as características e o ciclo de vida de um incidente e como utilizar esse conhecimento para criar o seu próprio plano de base.