Descripción de la validación de la funcionalidad BCP
La validación de capacidad es una parte integral del ciclo de vida de ERCM. Implica probar la eficacia del Plan de continuidad empresarial (BCP) tanto en la teoría como en la práctica. Cada equipo de servicio prueba su BCP periódicamente para medir la eficacia del plan y la preparación del equipo de servicio para ejecutar el plan. Según las directrices del Programa ERCM, debe realizarse una revisión anual del BCP y la validación de capacidad en un plazo de 12 meses a partir de la última revisión e incluir la revisión de la documentación complementaria, como la BIA y la DA.
Niveles de validación
Para validar las estrategias de resistencia y recuperación frente a una amplia gama de posibles incidentes, el Programa ERCM define varias categorías de escenarios de prueba que afectan a personas, ubicaciones y tecnología. Los equipos de servicio individuales pueden definir sus propias pruebas específicas dentro de las directrices del escenario de pruebas de ERCM.
Entre los ejemplos de escenarios de prueba se incluyen:
- Pérdida de un edificio principal o clúster de campus
- Interrupciones tecnológicas
- Interrupciones de la red regional
- Interrupciones críticas de terceros
- Interrupciones de los recursos
- Amplios eventos regionales
- Pérdida de un único centro de datos
- Ciberataques
- Pandemia
En el contexto de cada escenario de prueba, Microsoft define ocho niveles de validación, desde el 0, que significa que la capacidad no se ha probado, hasta 7, que significa que la capacidad se activó completamente durante la prueba. Los niveles 1 a 4 prueban las características del plan de continuidad empresarial fuera de los entornos de producción. Los niveles 5 a 7 requieren una validación cada vez más rigurosa de las estrategias de recuperación en entornos de producción, y el nivel 7 requiere la validación del plan de recuperación para todo un ecosistema de aplicaciones, incluidas todas las dependencias. El nivel de validación requerido para cada servicio se basa en la importancia del servicio, y los servicios más críticos reciben una validación más rigurosa. Ponemos a disposición de los clientes los resultados de validación de funcionalidad para algunos servicios de Microsoft Online a través de informes trimestrales disponibles en el Portal de confianza de servicios.
Respuesta a los incidentes que afectan al servicio
El valor de la validación de capacidades y de la mejora continua del BCM se hace evidente cuando Microsoft tiene que ejecutar planes de continuidad empresarial para responder a incidentes que afectan al servicio. Cuando el huracán Harvey azotó Texas con un impacto anticipado en nuestro centro de datos de San Antonio, el equipo de Exchange Online activó el plan de continuidad empresarial para evacuar proactivamente el tráfico del centro de datos, lo que evitó cualquier impacto en nuestros clientes. Una vez superada la amenaza, el centro de datos volvió a funcionar normalmente sin incidentes siguiendo los procesos de recuperación claramente definidos. Estos procesos se pusieron en marcha porque Exchange Online había actualizado y probado su plan de continuidad basándose en las lecciones aprendidas de anteriores catástrofes naturales para garantizar que el plan fuera efectivo durante una emergencia real.
Las lecciones aprendidas de los incidentes internos también sirven para mejorar la continuidad empresarial. Cuando la red corporativa de Microsoft experimentó una interrupción de DNS debido a una mala implementación de la directiva de grupo, los clientes estuvieron protegidos de cualquier impacto porque la red corporativa estaba aislada de nuestros servicios comerciales en zonas de error independientes. Sin embargo, las comunicaciones internas de Microsoft se vieron afectadas y dificultaron la coordinación para resolver el incidente. Este incidente condujo a la creación de protocolos de estado de emergencia para permitir la colaboración entre equipos de Microsoft durante incidentes que afectan a las comunicaciones internas.