Bases da resposta a incidentes

Concluído

Hoje em dia, as organizações beneficiam da acessibilidade, eficiência e conveniência da cloud, mas enfrentam vários desafios à medida que passam por uma transformação digital que envolve transferir partes do seu negócio para serviços na cloud.

Alguns dos desafios comuns que você pode estar enfrentando em sua organização incluem:

  • Aumento do número de perturbações no serviço
  • Falta de um método eficaz de controlo e resposta a incidentes (tudo é de base ad hoc e reacionária)
  • Período de tempo inaceitável para a resolução
  • O período para a resolução não está a melhorar ou está a piorar
  • As informações e o estado são difíceis de encontrar
  • Periodicidade dos mesmos problemas e erros

Para enfrentar esses desafios, você precisa de um plano de resposta a incidentes bem definido que seja construído sobre uma base sólida.

Bases e pilares

O objetivo de uma base é manter e suportar a estrutura acima dela. Num módulo de introdução separado a este percurso de aprendizagem, discutimos a ideia de que o trabalho de fiabilidade se baseia no nível de base da monitorização e que a resposta a incidentes está um pouco acima na hierarquia.

A resposta a incidentes também dispõe de uma base. Existem três pilares que apoiam um bom plano de resposta a incidentes:

  • Listas
  • Funções
  • Rotações

Nesta unidade, você descobrirá o que é cada um desses pilares e quais os papéis que eles desempenham na conceção de uma estratégia de resposta a incidentes que o leva mais longe no caminho em direção aos seus objetivos de confiabilidade.

Listas

É essencial ter um bom plano, mas um plano é inútil sem pessoas para executá-lo. Assim, o melhor lugar para começar é determinar quem deve responder aos problemas e como informá-los quando sua resposta é necessária.

A melhor maneira de enfrentar este desafio é conceber uma lista. Uma lista consiste numa lista de pessoas que são designadas para a equipa de serviço. Esta equipa deve ser composta por múltiplos engenheiros. Esses membros da equipe devem ter o conhecimento e as habilidades para lidar com o tipo de problemas que podem ocorrer em seu ambiente, bem como treinamento em resposta a incidentes.

No entanto, uma lista de nomes não é suficiente. Você precisa construir uma estrutura em torno de quem está de plantão em um determinado ponto e o que cada pessoa deve fazer. É aí que entram os papéis.

Funções

Os papéis trazem ordem ao que seria uma resposta caótica ou, na melhor das hipóteses, ad hoc. Fá-lo definindo as funções específicas a assumir por cada pessoa numa situação particular, e o lugar de cada uma na "cadeia de comando". As funções podem variar de acordo com a organização ou até mesmo com o tipo de incidente, mas as seguintes funções geralmente devem fazer parte de uma equipe organizada de resposta a incidentes:

  • Respondedor primário: é a "pessoa pontual" que geralmente é a primeira pessoa no local, ou seja, o primeiro engenheiro de plantão que é chamado quando ocorre um incidente.
  • Respondedor secundário: é alguém que atua como backup e pode intervir se o respondente principal não estiver disponível ou se um segundo par de olhos for necessário.
  • Especialistas no assunto (PMEs): são pessoas que têm um conhecimento profundo sobre uma faceta específica de suas operações. Eles estão lá se os socorristas primários e secundários precisarem escalar o problema para alguém com mais experiência. Eles não estão de plantão o tempo todo, mas estão disponíveis quando suas habilidades especializadas são necessárias. Deve manter uma lista de PME em vários assuntos (por exemplo, base de dados, front-end, infraestrutura de rede, aplicações Web, cibersegurança, etc.).
  • Comandante de incidentes: Este é um papel importante em um incidente ou interrupção em grande escala que afeta muitos componentes diferentes e/ou requer coordenação entre muitas equipes e sistemas diferentes. Um comandante de incidente será a pessoa que coordena grande parte da conversa e do esforço em relação às atividades de resposta e remediação. O comandante do incidente está atento ao "panorama geral"; Eles acompanham o que está acontecendo e quem está fazendo o quê. Um comandante de incidentes é ótimo para garantir que os engenheiros permaneçam focados e que estejam trabalhando em seus próprios esforços de remediação sem pisar ou desfazer o trabalho uns dos outros.
  • Escriba: O papel do escriba é documentar a conversa em torno do incidente com o máximo de detalhes possível. As equipas geralmente utilizam linhas de audioconferência, chamadas em conferência ou chat de vídeo para reunir todas as pessoas e tentar compreender o que se passa, o que pode certamente ajudar a criar espaço para a conversação. No entanto, é difícil para nós passar e entender em detalhes o que os engenheiros estavam dizendo e fazendo, a menos que seja transcrito. Como resultado, um escriba é a pessoa que pode nos ajudar a documentar o máximo possível para revisar mais tarde. O escriba captura todos os dados possíveis; não apenas o que os membros da equipe estão fazendo, mas também o que eles estão dizendo e até mesmo o que eles estão sentindo ou experimentando.
  • Coordenador de comunicação: pense nessa pessoa como o "gerente de relações públicas" do incidente. O coordenador de comunicação trabalha em conjunto com o comandante do incidente para compartilhar informações sobre o incidente com aqueles que não estão envolvidos no trabalho ativo para abordar e se recuperar do incidente. Isso pode incluir clientes, equipes de vendas e marketing, suporte ao cliente e quaisquer outras partes interessadas dentro ou fora da organização que precisam ser informadas sobre o que está acontecendo e o status de como a resposta e a remediação estão progredindo.

Rotações

Agora tem a sua lista de pessoal da equipa de resposta e atribuiu as funções apropriadas. O próximo e último passo é criar uma rotação, que é um horário que atribui os turnos para os quais cada pessoa está de serviço.

Existem muitas maneiras diferentes de dividir os turnos. O agendamento por turnos pode ser um processo estratégico complexo. Os turnos não devem ser atribuídos aleatoriamente; Você deve pensar um pouco no agendamento para torná-lo o mais eficaz possível — e agradável para os membros da equipe.

Alguns métodos para agendamento de turnos incluem:

  • 24 x 7: Esta é uma rotação em que os membros da equipe estão de plantão por vários dias seguidos. Esta é uma forma simples de atribuir cobertura por turnos, mas deve ter cuidado para limitar a duração. Rotações de turnos superiores a três a quatro dias podem ser prejudiciais para a saúde geral da equipe de engenharia e, portanto, reduzem a confiabilidade de todo o sistema.
  • Siga os turnos do sol: Este é um modelo de turno em que os engenheiros agendam seus turnos de plantão apenas durante seu horário normal de trabalho e, em seguida, transferem sua responsabilidade de plantão no final de seu dia de trabalho para outro colega localizado em um fuso horário diferente.

Estes são apenas alguns exemplos de formas de atribuição de turnos. O importante é dividir os turnos de uma forma que funcione melhor para os indivíduos da sua equipa de resposta. Há muitas maneiras de personalizar turnos, especialmente para fins de semana, quando os engenheiros precisam de mais flexibilidade. Os engenheiros devem conseguir entregar facilmente a função a alguém quando surgem conflitos não relacionados com o trabalho.

Verifique o seu conhecimento

1.

Qual destes elementos é um pilar de resposta a incidentes?

2.

O que o papel do escriba faz como parte da resposta a incidentes?

3.

Precisa de todas as funções mencionadas nesta unidade para obter uma resposta a incidentes com êxito?