Recomendaciones para diseñar una estrategia de recuperación ante desastres

Artículo
05/16/2024

Se aplica a esta recomendación de la lista de verificación de confiabilidad bien diseñada: Power Platform

RE:07	Implemente planes de continuidad empresarial y recuperación ante desastres (BCDR) estructurados, probados y documentados que se ajusten a los objetivos de recuperación. Los planes deben cubrir todos los componentes y el sistema en su conjunto.

Esta guía describe las recomendaciones para diseñar una estrategia fiable de recuperación ante desastres para una carga de trabajo. Para cumplir los objetivos internos de nivel de servicio (SLO) o incluso un acuerdo de nivel de servicio (SLA) que haya garantizado a sus clientes, debe contar con una estrategia de recuperación ante desastres sólida y fiable. Se esperan errores y otros problemas importantes. Sus preparativos para hacer frente a estos incidentes determinan hasta qué punto sus clientes pueden confiar en que su empresa les ofrecerá un servicio fiable. Una estrategia de recuperación ante desastres es la columna vertebral de la preparación ante incidentes graves.

Definiciones

Término	Definición
Conmutación por error	El desplazamiento automatizado o manual del tráfico de carga de trabajo de producción de una región no disponible a una región no afectada.
Conmutación por recuperación	El desplazamiento automatizado o manual del tráfico de la carga de trabajo de producción desde una región de conmutación por error de vuelta a la región primaria.

Estrategias clave de diseño

En esta guía se supone que ya ha realizado las siguientes tareas como parte de su planificación de la fiabilidad:

Identificar los flujos críticos y no críticos.
Realizar un análisis del modo de error (AMF) para sus flujos.
Identificar los objetivos de fiabilidad.
Diseñar una estrategia de pruebas sólida.

Una arquitectura de carga de trabajo fiable es la base de una estrategia de recuperación ante desastres (DR) fiable. Tenga en cuenta la fiabilidad en cada fase de la creación de su carga de trabajo para asegurarse de que dispone de los componentes necesarios para una recuperación eficaz antes de empezar a planificar su estrategia de DR. Esta base garantiza que los objetivos de fiabilidad de su carga de trabajo, como el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO), sean prácticos y alcanzables.

Mantener un plan de recuperación ante desastres

La clave de una estrategia de recuperación ante desastres fiable para una carga de trabajo es el plan de recuperación ante desastres. Su plan debe ser un documento vivo que se revise y actualice periódicamente a medida que cambie su entorno. Comparta el plan con los equipos pertinentes (operaciones, liderazgo tecnológico y partes interesadas de la empresa) con regularidad (por ejemplo, cada seis meses). Guárdelo en un almacén de datos seguro y de alta disponibilidad como OneDrive.

Siga estas recomendaciones para desarrollar su plan de recuperación ante desastres:

Defina claramente qué constituye una catástrofe y requiere la activación del plan de recuperación ante desastres.

Las catástrofes son problemas a gran escala. Pueden ser interrupciones regionales, interrupciones de servicios como Microsoft Entra ID o Azure DNS, o ataques maliciosos graves como ataques de ransomware o ataques DDoS.

Incluya en su plan de RD ejemplos de modos de error que no se consideren desastres, como la no disponibilidad o el fallo de un único recurso, para que los operadores no invoquen erróneamente sus escaladas de RD.
Cree el plan de recuperación ante desastres sobre la base de su documentación FMA. Asegúrese de que su plan de recuperación ante desastres recoge los modos de error y las estrategias de mitigación para las interrupciones definidas como desastres. Si se requieren actualizaciones, actualice tanto su plan de recuperación ante desastres como sus documentos FMA al mismo tiempo para que sean precisos cuando cambie el entorno o cuando las pruebas descubran comportamientos inesperados.
Defina claramente los roles y las responsabilidades dentro del equipo de carga de trabajo y conozca cualquier rol externo relacionado dentro de su organización. Si el desastre se debe a la interrupción de un servicio externo, como Microsoft Entra ID, asegúrese de tener definido un rol que sea responsable de la comunicación con la parte externa y pueda compartir las actualizaciones con el equipo de carga de trabajo. Los roles deben incluir:
- La parte responsable de declarar un desastre
- La parte responsable de declarar el cierre del incidente
- Roles de operaciones
- Roles de prueba y validación
- Roles de comunicación interna y externa
- Roles de dirección de análisis retrospectivo y de causa raíz (ACR)
Defina las vías de escalación que debe seguir el equipo de carga de trabajo para garantizar que el estado de recuperación se comunica a las partes interesadas.
Incluya el orden prescrito en el que deben recuperarse los componentes de la carga de trabajo para causar el menor impacto. Por ejemplo, recupere las bases de datos y reinicie los flujos de nube antes de recuperar la aplicación.
- Detalle el procedimiento de recuperación de cada componente como una guía paso a paso. Incluya capturas de pantalla, si es posible, y los requisitos previos para ejecutar el procedimiento. Por ejemplo, enumere los scripts o credenciales necesarios que hay que reunir.
- Defina las responsabilidades de su equipo frente a las de su proveedor de hosting en la nube. Por ejemplo, Microsoft es responsable de restaurar una PaaS (plataforma como servicio), pero usted es responsable de rehidratar los datos y aplicar su configuración al servicio.
- Capture la causa raíz del incidente y realice la mitigación antes de iniciar la recuperación. Por ejemplo, si la causa del incidente es un problema de seguridad, mitigue ese problema antes de recuperar los sistemas afectados en su entorno de conmutación por error.
Si necesita volver a implementar su aplicación en el entorno de conmutación por error, use herramientas para automatizar el proceso de implementación en la medida de lo posible. Asegúrese de que sus Azure Pipelines se han implementado previamente y se han configurado correctamente en los entornos de conmutación por error para poder comenzar inmediatamente con sus implementaciones. Use implementaciones automatizadas de un extremo a otro, con puertas de aprobación manuales cuando sea necesario, para garantizar un proceso de implementación coherente y eficaz. Cuando una fase del proceso de implementación requiera intervención manual, documente los pasos manuales. Defina claramente los roles y las responsabilidades.
Automatice todo lo que pueda el procedimiento. Use la lógica de reintento para evitar perder tiempo en scripts atascados en una tarea interrumpida. Dado que solo ejecuta estos scripts en caso de emergencia, no querrá que los scripts desarrollados incorrectamente causen más daños o ralenticen su proceso de recuperación.

Nota

La automatización plantea riesgos. Los operarios formados deben supervisar atentamente los procesos automatizados e intervenir si algún proceso tiene problemas. Para minimizar el riesgo de que la automatización reaccione ante falsos positivos, sea minucioso en sus simulacros de recuperación ante desastres. Pruebe todas las fases del plan. Simule la detección para generar alertas y, a continuación, avance por todo el procedimiento de recuperación.

Realizar simulacros de recuperación ante desastres

Una práctica de pruebas de recuperación ante desastres es esencial para un buen plan de recuperación ante desastres. Muchos sectores tienen marcos de cumplimiento que exigen simulacros regulares de recuperación ante desastres. Independientemente de su sector, los simulacros frecuentes de recuperación ante desastres son cruciales para su éxito.

Siga estas recomendaciones para realizar simulacros de recuperación ante desastres con éxito:

Realice al menos un simulacro de recuperación ante desastres de producción al año. Los simulacros de preparación o los simulacros sin producción ayudan a garantizar que las partes implicadas están familiarizadas con sus roles y responsabilidades. Estos simulacros también ayudan a los operarios a familiarizarse siguiendo los procesos de recuperación. Pero solo los simulacros de producción ponen realmente a prueba la validez del plan de recuperación ante desastres y las métricas de RTO y RPO. Use sus simulacros de producción para cronometrar los procesos de recuperación de componentes y flujos y asegurarse de que los objetivos de RTO y RPO que se han definido para su carga de trabajo son alcanzables. Para las funciones que están fuera de su control, como las interrupciones de Microsoft Entra ID, asegúrese de que los objetivos de RTO y RPO para los flujos que implican esas funciones tienen en cuenta los posibles retrasos fuera de su control.
Usar simulacros de preparación para formar a los nuevos operarios en los procesos y procedimientos de DR. Los operadores veteranos deben tomarse tiempo para dejar que los nuevos operadores desempeñen su rol y deben estar atentos a las oportunidades de mejora. Si un nuevo operario duda o está confundido por un paso de un procedimiento, revise ese procedimiento para asegurarse de que está escrito con claridad.

Consideraciones

Realizar simulacros de DR en producción puede provocar errores catastróficos inesperados. Asegúrese de probar los procedimientos de recuperación en entornos que no sean de producción durante sus implementaciones iniciales.

Conceda a su equipo el mayor tiempo posible de mantenimiento durante los ejercicios. Cuando planifique el tiempo de mantenimiento, use las métricas de recuperación que capture durante las pruebas como asignaciones mínimas de tiempo necesarias.

A medida que maduren sus prácticas de simulacro de DR, aprenderá qué procedimientos puede ejecutar en paralelo y cuáles debe ejecutar en secuencia. Al principio de sus prácticas de simulacro, suponga que cada procedimiento debe ejecutarse en secuencia y que necesita tiempo extra en cada paso para gestionar problemas imprevistos.

Capacidades de conmutación por error

Microsoft Las aplicaciones empresariales proporcionan capacidades de continuidad empresarial y recuperación ante desastres (BCDR) a todos los entornos de producción en Dynamics 365 y aplicaciones de software como servicio (SAAS). Power Platform Descubra cómo Microsoft garantiza que sus datos de producción sean resilientes durante interrupciones regionales.

Lista de comprobación de fiabilidad

Consulte el conjunto completo de recomendaciones.

Lista de verificación de confiabilidad

Compartir vía