Fundamentos da resposta a incidentes
Atualmente, as organizações se beneficiam da acessibilidade, eficiência e conveniência da nuvem, mas enfrentam muitos desafios à medida que passam por uma transformação digital que envolve a transferência de partes de seus negócios para serviços em nuvem.
Alguns dos desafios comuns que você pode estar enfrentando em sua organização incluem:
- Aumento do número de interrupções de serviço
- Nenhum método eficaz de rastrear e responder a incidentes (tudo é ad hoc e reacionário)
- Tempo inaceitável para a resolução
- O tempo de resolução não está a melhorar ou está a piorar
- Informações e status são difíceis de encontrar
- Recorrência dos mesmos problemas e erros
Para enfrentar esses desafios, você precisa de um plano de resposta a incidentes bem definido que seja construído sobre uma base sólida.
Fundações e pilares
O objetivo de uma fundação é manter e manter unida a estrutura acima dela. Em um módulo de introdução separado para este caminho de aprendizagem, discutimos a ideia de que o trabalho de confiabilidade é construído no nível fundamental de monitoramento e que a resposta a incidentes repousa um pouco acima disso na hierarquia.
A resposta a incidentes também tem uma base própria. Existem três pilares que apoiam um bom plano de resposta a incidentes:
- Listas
- Funções
- Rotações
Nesta unidade, você descobrirá o que é cada um desses pilares e quais os papéis que eles desempenham na conceção de uma estratégia de resposta a incidentes que o leva mais longe no caminho em direção aos seus objetivos de confiabilidade.
Listas
É essencial ter um bom plano, mas um plano é inútil sem pessoas para executá-lo. Assim, o melhor lugar para começar é determinar quem deve responder aos problemas e como informá-los quando sua resposta é necessária.
A melhor maneira de enfrentar esse desafio é projetar uma lista. Uma lista é uma lista de pessoas que são atribuídas à equipe de plantão. Esta equipa deve ser composta por vários engenheiros. Esses membros da equipe devem ter o conhecimento e as habilidades para lidar com o tipo de problemas que podem ocorrer em seu ambiente, bem como treinamento em resposta a incidentes.
Uma lista de nomes, no entanto, não é suficiente. Você precisa construir uma estrutura em torno de quem está de plantão em um determinado ponto e o que cada pessoa deve fazer. É aí que entram os papéis.
Funções
As funções trazem ordem ao que seria uma resposta caótica ou, na melhor das hipóteses, improvisada. Fá-lo definindo as funções específicas a assumir por cada pessoa numa situação particular, e o lugar de cada uma na "cadeia de comando". As funções podem variar de acordo com a organização ou até mesmo com o tipo de incidente, mas as seguintes funções geralmente devem fazer parte de uma equipe organizada de resposta a incidentes:
- Respondedor primário: Esta é a "pessoa pontual" que geralmente é a primeira pessoa em cena; ou seja, o primeiro engenheiro de plantão que é chamado quando ocorre um incidente.
- Respondedor secundário: É alguém que atua como backup e pode intervir se o respondente principal não estiver disponível ou se um segundo par de olhos for necessário.
- Especialistas no assunto (PMEs): São pessoas que têm um conhecimento profundo sobre uma faceta específica de suas operações. Eles estão lá se os socorristas primários e secundários precisarem escalar o problema para alguém com mais experiência. Eles não estão de plantão o tempo todo, mas estão disponíveis quando suas habilidades especializadas são necessárias. Deve manter uma lista de PME em vários assuntos (por exemplo, base de dados, front-end, infraestrutura de rede, aplicações Web, cibersegurança, etc.).
- Comandante de Incidentes,: Este é um papel importante em um incidente ou interrupção em grande escala que afeta muitos componentes diferentes e/ou requer coordenação entre muitas equipes e sistemas diferentes. Um comandante de incidente será a pessoa que coordena grande parte da conversa e do esforço em relação às atividades de resposta e remediação. O comandante do incidente está atento ao "panorama geral"; Eles acompanham o que está acontecendo e quem está fazendo o quê. Um comandante de incidentes é ótimo para garantir que os engenheiros permaneçam focados e que estejam trabalhando nos seus próprios esforços de remediação sem interferir ou comprometer o trabalho uns dos outros.
- Scribe: O papel do escriba é documentar a conversa em torno do incidente com o máximo de detalhes possível. As equipes geralmente usam pontes telefônicas, chamadas em conferência ou bate-papo por vídeo para reunir todos e tentar entender o que está acontecendo, o que certamente pode ajudar a criar espaço para a conversa. No entanto, é difícil para nós analisar e compreender em detalhes o que os engenheiros estavam dizendo e fazendo, a menos que seja transcrito. Como resultado, um escriba é a pessoa que pode nos ajudar a documentar o máximo possível para revisar mais tarde. O escriba captura todos os dados possíveis; não apenas o que os membros da equipe estão fazendo, mas também o que eles estão dizendo e até mesmo o que eles estão sentindo ou experimentando.
- Coordenador de Comunicação: Pense nessa pessoa como o "gerente de relações públicas" do incidente. O coordenador de comunicação trabalha em conjunto com o comandante do incidente para compartilhar informações sobre o incidente com aqueles que não estão envolvidos no trabalho ativo para abordar e se recuperar do incidente. Isso pode incluir clientes, equipes de vendas e marketing, suporte ao cliente e quaisquer outras partes interessadas dentro ou fora da organização que precisam ser informadas sobre o que está acontecendo e o status de como a resposta e a remediação estão progredindo.
Rotações
Agora você tem sua lista de pessoal da equipe de resposta e atribuiu as funções apropriadas. O próximo e último passo é criar um rodízio, que é um horário que atribui os turnos para os quais cada pessoa está de plantão.
Existem muitas formas diferentes de dividir os turnos. O agendamento de turnos pode ser um processo estratégico complexo. Os turnos não devem ser atribuídos aleatoriamente; Você deve pensar um pouco no agendamento para torná-lo o mais eficaz possível — e agradável para os membros da equipe.
Alguns métodos para agendar turnos incluem:
- 24 x 7: Esta é uma rotação em que os membros da equipe estão de plantão por vários dias seguidos. Esta é uma maneira simples de alocar a cobertura de turnos, mas você deve ter cuidado para limitar a duração. Rotações de turnos superiores a três a quatro dias podem ser prejudiciais para a saúde geral da equipe de engenharia e, portanto, reduzem a confiabilidade de todo o sistema.
- Follow the sun shifts: Este é um modelo de turno em que os engenheiros agendam os seus turnos de permanência apenas durante o seu horário normal de trabalho e, em seguida, transferem a sua responsabilidade de permanência no final do seu dia de trabalho para outro colega localizado num fuso horário diferente.
Estes são apenas alguns exemplos de como os turnos podem ser atribuídos. O ponto importante é dividir os turnos de uma forma que funcione melhor para os indivíduos da sua equipe de resposta. Há muitas maneiras de personalizar turnos, especialmente para fins de semana, quando os engenheiros precisam de mais flexibilidade. Os engenheiros devem ser capazes de transferir facilmente a função para alguém quando surgem conflitos não relacionados com o trabalho.