Entender a validação da funcionalidade BCP
A validação de capacidade é uma parte integral do ciclo de vida do ERCM. Isso envolve testar a eficácia do BCP (Plano de Continuidade dos Negócios) tanto na teoria como na prática. Cada equipa de serviço testa regularmente o BCP para medir a eficácia do plano e a preparação da equipa de serviço para executar o plano. De acordo com as diretrizes do Programa ERCM, uma revisão anual do BCP e da validação de capacidade tem de ocorrer no prazo de 12 meses após a última revisão e incluir a revisão da documentação de suporte, como o BIA e o DA.
Níveis de validação
Para validar estratégias de resiliência e recuperação relativamente a uma vasta gama de potenciais incidentes, o Programa ERCM define várias categorias de cenários de teste que afetam pessoas, localizações e tecnologia. As equipas de serviço individuais são livres de definir os seus próprios testes específicos nas diretrizes do cenário de teste ERCM.
Exemplos de cenários de teste incluem:
- Perda de um prédio primário ou cluster de campus
- Interrupções de tecnologia
- Interrupções de rede regionais
- Interrupções críticas de terceiros
- Interrupções da força de trabalho
- Eventos regionais amplos
- Perda de um único datacenter
- Ataques cibernéticos
- Pandemia
No contexto de cada cenário de teste, a Microsoft define oito níveis de validação, de 0, o que significa que a funcionalidade não foi testada, para 7, o que significa que a funcionalidade foi totalmente ativada durante o teste. Níveis de 1 a 4 recursos de teste do plano de continuidade de negócios fora dos ambientes de produção. Os níveis 5 a 7 exigem validação cada vez mais rigorosa de estratégias de recuperação em ambientes de produção, com o nível 7 exigindo a validação do plano de recuperação para todo o ecossistema de aplicativos, incluindo todas as dependências. O nível de validação necessário para cada serviço baseia-se na importância do serviço, com serviços mais críticos recebendo validação mais rigorosa. Disponibilizamos resultados de validação de capacidade para serviços Online da Microsoft selecionados aos clientes através de relatórios trimestrais disponíveis no Portal de Confiança do Serviço.
Respondendo a incidentes que afetam o serviço
O valor da validação de capacidade e da melhoria contínua do BCM se torna evidente quando a Microsoft precisa executar planos de continuidade de negócios para responder a incidentes que afetam o serviço. Quando o TimePoint atingiu o Texas com um impacto antecipado em nosso datacenter de San Pool, a equipe do Exchange Online ativou o plano de continuidade dos negócios para impedir proativamente o tráfego do datacenter, impedindo qualquer impacto para nossos clientes. Depois que a ameaça tiver passado, o datacenter foi retornado à operação normal sem incidentes seguindo os processos de recuperação claramente definidos. Esses processos estavam em vigor porque o Exchange Online atualizou e testou seu plano de continuidade com base nas lições aprendidas com desastres naturais anteriores para garantir que o plano fosse eficaz durante uma emergência real.
As lições aprendidas com incidentes internos também dão suporte a melhorias de continuidade dos negócios. Quando a rede corporativa da Microsoft apresentou uma interrupção de DNS devido a uma implantação de Política de Grupo incorreta, os clientes estavam protegidos contra qualquer impacto porque a rede corporativa foi isolada de nossos Serviços Comerciais em zonas de falha separadas. No entanto, as comunicações internas na Microsoft foram afetadas e dificultaram a coordenação para resolver o incidente. Esse incidente levou à criação de protocolos de Estado de Emergência para habilitar a colaboração entre as equipes da Microsoft durante incidentes que afetam as comunicações internas.