Características e ciclo de vida de um incidente

Concluído

Como você aprendeu na última unidade, um incidente é uma interrupção de serviço que afeta seus clientes e usuários finais. Os incidentes vêm de muitas formas, desde lentidão de desempenho que frustram os usuários ("lento é o novo down") até falhas no sistema que tornam o serviço ou site completamente indisponível por um período de tempo.

Características de um incidente

Os incidentes geralmente são inesperados e parecem ocorrer no pior horário possível (como 2h00 da manhã, ou quando você está profundamente imerso em um projeto importante). É por isso que os incidentes são comumente temidos e evitados, a ponto de as pessoas às vezes minimizarem a importância de um incidente. A pressão interna é, por vezes, tão grande numa organização que há a tentação de identificar incorretamente ou de não comunicar uma interrupção por medo de represálias.

No mínimo, os incidentes criam trabalho não planejado e, como você passa a maior parte do seu tempo fazendo um trabalho planejado com uma boa ideia do que deveria estar fazendo, provavelmente pensa nos incidentes como coisas ruins. No entanto, há outra maneira de olhar para isso: os incidentes são realmente investimentos* em fornecer o valor que você está tentando entregar aos usuários finais. Qualquer que seja a causa do incidente ou a dimensão do impacto, todos os incidentes têm algo em comum: podem proporcionar experiências de aprendizagem valiosas.

Você deve ver os incidentes como o pulso de seus sistemas. Dizem-lhe mais sobre o sistema do que sabia e ter esse conhecimento é positivo. Quando você tem uma base sólida de monitoramento e sabe mais sobre o que está acontecendo em seu sistema, isso inevitavelmente gerará mais alertas e incidentes e oportunidades para responder. No mínimo, os incidentes dizem o que está acontecendo e, assim, aumentam sua consciência operacional. Num módulo anterior sobre monitorização, sugerimos que este era um importante precursor do trabalho de fiabilidade.

Ciclo de vida de um incidente

Se você quiser elevar o status de sua equipe de resposta a incidentes para "elite/alto desempenho", você deve olhar além da ideia de uma interrupção de serviço ou incidente como uma linha do tempo linear simples e abordá-la de uma perspetiva cíclica.

Você pode separar o ciclo de vida de um incidente em fases distintas que logicamente seguem uma após a outra em um ciclo que retorna ao início. Cada vez que contorna este ciclo (e fá-lo-á inúmeras vezes), se o manusear corretamente, é possível voltar ao início com uma maior visão dos seus sistemas. Com algum trabalho intencional, também pode estar mais bem preparado para responder de forma rápida e eficaz da próxima vez que ocorrer um incidente.

Fases de um incidente

As fases individuais do processo de resposta a incidentes parecem um pouco diferentes dependendo do modelo que utiliza. Para efeitos deste módulo, vai percorrer cinco fases do processo de resposta a um incidente:

  • Deteção: Esta fase é onde entra em jogo o conhecimento de monitorização de um módulo anterior neste percurso de aprendizagem. Suas ferramentas de monitoramento coletam as informações dos logs, analisam essas informações de acordo com os objetivos centrados no cliente que você configurou e enviam alertas acionáveis para que você saiba que a intervenção humana é necessária.
  • Resposta: Esta fase é o que acontece depois que você e sua equipe recebem esse alerta. Vamos mergulhar nesta fase em detalhes neste módulo, então haverá muito mais a dizer sobre essa ideia em apenas um momento.
  • Remediação: Esta fase é onde você restaura os sistemas para a funcionalidade normal. A forma como o faz depende da causa da interrupção do serviço. A sua prioridade máxima é voltar a colocar o serviço a funcionar e disponibilizá-lo aos seus clientes. No entanto, o seu trabalho não para quando isso é feito.
  • Análise: Para obter valor duradouro dos incidentes, você precisa aprender com eles. Esta fase é o processo de reunir as informações sobre o que aconteceu e quando durante o incidente e ver o que você pode aprender com isso fazendo as perguntas certas. Há um módulo inteiro sobre Aprender com o Fracasso que aborda esta fase.
  • Prontidão: Você deve incorporar as lições aprendidas na fase de análise em sua prática de operações. No futuro, se existirem itens de ação que ajudariam a evitar uma falha semelhante, estes itens também fariam parte desta fase.

Cycle diagram of circles labeled with phases from above. Circles are connected to next circle with arrows from phase to phase.

Antes de criar um plano de resposta a incidentes, tem de conhecer as características e o valor dos incidentes, bem como estar familiarizado com as fases do ciclo de vida do incidente. O próximo passo consiste em garantir que a sua estratégia de resposta assenta numa base sólida.

Verifique o seu conhecimento

1.

Qual das seguintes opções pode ser considerada o "pulso" do seu sistema?

2.

Qual das seguintes opções não representa uma fase de um incidente?