Resumen
La planeación y recuperación ante desastres es un elemento fundamental de las operaciones de TI, independientemente de si los sistemas de una organización se encuentran en el entorno local, en la nube o una combinación de ambos. Las plataformas de nube pública prestan servicios para hacer copias de seguridad de los datos críticos, para restaurarlos cuando se pierden, para conmutar por error a sistemas secundarios cuando los sistemas principales dejen de funcionar y, por lo general, para mitigar los efectos de los errores (y recuperarse de ellos). Estos son algunos de los puntos clave que se han descrito en este módulo:
Los sistemas de TI deben ser tolerantes a errores en la medida de lo posible. Un sistema con tolerancia a errores es aquel que se comporta según lo previsto o de acuerdo con las expectativas del contrato de nivel de servicio (SLA) ante la existencia de fallos.
Una forma de lograr la tolerancia a errores es emplear métodos reactivos como la replicación de tareas y los puntos de restauración.
Los métodos proactivos como la replicación de recursos y el equilibrio de carga también pueden contribuir a la tolerancia a errores.
Las principales plataformas en la nube prestan servicios de copia de seguridad que proporcionan una red de seguridad frente a la pérdida de datos. Azure Backup es un ejemplo de un servicio de copia de seguridad basado en la nube. AWS Backup es otro.
La recuperación ante desastres intenta proporcionar continuidad empresarial redirigiendo el tráfico a los sistemas secundarios cuando sea necesario. Los proveedores de servicios en la nube como Amazon y Microsoft ofrecen recuperación ante desastres como servicio (DRaaS) en forma de servicios como AWS CloudEndure y Azure Site Recovery.
Los objetivos de nivel de servicio comunes que rigen los planes de recuperación ante desastres son el objetivo de punto de recuperación (RPO), el objetivo de tiempo de recuperación (RTO) y el tiempo de retención.
La continuidad es la puesta en marcha de procedimientos recomendados correctamente para lograr un resultado positivo cuando sobreviene el desastre. Un factor clave en la continuidad es la resistencia.
La resistencia se puede cuantificar usando métricas como la tolerancia a errores, la tolerancia a interrupciones y la supervivencia. El modelo ResiliNets ofrece una forma de codificar la resistencia.
La norma internacional de estrategia de continuidad empresarial es ISO 22301. Azure usa el marco de resistencia de Azure para cumplir con la norma ISO 22301.
Para que un sistema de información sea resistente, quienes se encargan de él deben defender una idea a toda costa: que los sistemas de información evolucionan como seres vivos, a través de una mejora y supervisión coherentes de aspectos que no son robóticos, sino que están vivos. Los procesos automatizados tienen un propósito positivo, pero no sustituyen al esfuerzo activo.