A importância da resposta a incidentes

3 minutos

Com base nos princípios e nas práticas de monitoramento discutidos em outro módulo deste roteiro de aprendizagem, você aprenderá o que fazer quando o monitoramento revelar um problema. Se você receber um alerta acionável notificando que seus sistemas não estão operando conforme o esperado, esse é o gatilho de uma resposta para lidar com o problema.

O que é um incidente?

A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; nem mesmo todos os engenheiros concordam sobre o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.

Algumas delas rotularão todas as interrupções como incidentes, independentemente de os clientes serem ou não afetados. No contexto desse módulo, podemos concordar que um incidente é definido como uma interrupção de serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços dos quais eles dependem. Os exemplos incluem quando os sistemas estão inativos ou estão funcionando incorretamente de modo que afeta os clientes.

O que é resposta a incidentes?

A prevenção de todos os problemas é uma meta louvável, mas impossível. As coisas eventualmente darão errado, portanto, precisamos de um plano para limitar o impacto sobre nossos usuários finais e retornar as operações ao normal o mais rápido possível.

A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e com base no momento presente, sem considerar os efeitos de longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.

Sua abordagem de resposta a incidentes determina sua eficácia em:

Entender o que está acontecendo (diagnosticar o problema).
Triagem (determinar a urgência) e priorização do problema.
Envolver os recursos certos para atenuar os problemas.
Comunicar-se com os stakeholders sobre o problema.

Depois de corrigir o problema, você poderá aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante, que é objeto de um módulo separado inteiro e que vale a pena discutir.

Como medir o desempenho de resposta a incidentes

Você deve estar familiarizado com o acrônimo TTR, que pode ser definido como "tempo para recuperar", "tempo para corrigir" ou "tempo para restaurar". Todas essas variantes se referem à mesma coisa: a quantidade total de tempo que leva para que você coloque os serviços de volta em uma condição em que eles possam voltar a atender às expectativas dos clientes.

Essa métrica é uma forma de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menor será o impacto que a interrupção ou o serviço degradado terá.

É importante saber como sua organização está lidando com a resposta a incidentes. A cada ano, a organização DORA (DevOps Research and Assessment) libera um relatório de Estado de DevOps. Algumas descobertas importantes no relatório de 2019 focaram no desempenho da resposta a incidentes.

O relatório classificou as equipes de engenharia capazes de detectar interrupções de serviço, responder a elas e corrigi-las em menos de uma hora como de " desempenho alto ou de elite".
Aquelas que conseguiram se recuperar de incidentes em menos de 24 horas foram classificadas como de "desempenho médio".
As de "baixo desempenho" são aquelas que levam entre uma semana e um mês para se recuperar de interrupções de serviço.

A diferença entre esses níveis é significativa. O estudo constatou que as equipes de elite/desempenho alto se recuperam de incidentes 2.604 vezes mais rapidamente do que seus pares de "desempenho baixo". As equipes de elite/alto desempenho também estão implantando para produção com uma frequência 208 vezes maior.

Por que e como as equipes com desempenho de elite respondem e se recuperam muito mais rapidamente do que o restante? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta de base já em vigor quando as coisas inevitavelmente dão errado.

Ao percorrer este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano base.

Verificar seu conhecimento

Qual das alternativas a seguir é uma meta para uma resposta a incidentes eficaz?

Ser capaz de reagir com cautela

Ser capaz de responder com urgência

Ser capaz de agir com considerações

Com que rapidez as equipes de engenharia que são classificadas como de "desempenho alto ou de elite" geralmente detectam as interrupções de serviço, respondem a elas e as corrigem?

em menos de 1 hora

em menos de 4 horas

em menos de 24 horas

em menos de uma semana ou um mês

É necessário responder a todas as perguntas antes de verificar o trabalho.

A importância da resposta a incidentes

O que é um incidente?

O que é resposta a incidentes?

Como medir o desempenho de resposta a incidentes

Verificar seu conhecimento

Comentários