Diseño para recuperación

Completado
La carga de trabajo debe poder anticiparse y recuperarse de la mayoría de los errores, de todas las magnituds, con una interrupción mínima en la experiencia del usuario y los objetivos de negocio.

Incluso los sistemas altamente resistentes necesitan enfoques de preparación ante desastres, tanto en el diseño de la arquitectura como en las operaciones de carga de trabajo. En la capa de datos, debe tener estrategias que puedan reparar el estado de la carga de trabajo si hay daños.

Escenario de ejemplo

Contoso hospeda actualmente una gran cantidad de datos en una base de datos de SQL Server local y ha modernizado recientemente su solución de análisis para los datos con servicios de Azure.

La nueva solución de análisis usa Azure Analysis Services, Azure Data Factory, Azure Synapse Analytics, Power BI y Azure Virtual Machines. Todos los usuarios de la solución son internos. Después de considerar los requisitos de disponibilidad de la solución, el equipo decide implementar la solución en una sola región.

Los datos se ingieren mediante Azure Data Factory y se procesan antes de guardarlos en el almacenamiento de Analysis Services. Parte del proceso requiere un proceso heredado de Windows, implementado en una máquina virtual en la nube.

Estar preparado para desastres

Tener planes de recuperación estructurados, probados y documentados que estén alineados con los objetivos de recuperación negociados. Los planes deben cubrir todos los componentes además del sistema en su conjunto.

Un proceso bien definido conduce a una recuperación rápida que puede evitar repercusiones negativas en las finanzas y la reputación de su negocio. La realización periódica de simulacros de recuperación comprueba el proceso de recuperación de los componentes del sistema, los datos y los pasos de conmutación por error y conmutación por recuperación para evitar confusiones cuando el tiempo y la integridad de los datos son las medidas clave del éxito.

Desafío de Contoso

  • La solución solo se usa internamente y no se considera crítica. Por lo tanto, el equipo de carga de trabajo y las partes interesadas de la empresa están de acuerdo en que volver a generar la solución en una región secundaria es un modelo de recuperación suficiente en el improbable caso de que se pierda la región de Azure en la que está implementada o toda la solución deje de estar disponible por algún otro motivo.
  • El equipo de cargas de trabajo describe cómo compilar la solución en otra región del plan de recuperación ante desastres, pero aún no ha tenido la oportunidad de realizar un simulacro completo de recuperación ante desastres.

Aplicación del enfoque y los resultados

  • Después de experimentar una interrupción regional, el equipo de respuesta de recuperación ante desastres puede seguir las instrucciones del plan de recuperación ante desastres para volver a implementar la solución de análisis en otra región.
  • El equipo detecta brechas en los planes de recuperación ante desastres para algunas de las operaciones necesarias para implementar la solución, y el plan se actualiza para que la recuperación sea más eficaz en el futuro.
  • El equipo de carga de trabajo y las partes interesadas aceptan acelerar las pruebas de recuperación ante desastres planeadas para asegurarse de que el plan actualizado permite una recuperación más eficaz.

Tratar datos con estado

Asegúrese de que puede reparar los datos de todos los componentes con estado dentro de los destinos de recuperación.

Las copias de seguridad son esenciales para restablecer el estado de funcionamiento del sistema utilizando un punto de recuperación de confianza, como el último estado correcto conocido.

Las copias de seguridad inmutables y transaccionalesmente coherentes garantizan que los datos no se puedan modificar y que los datos restaurados no estén dañados.

Desafío de Contoso

  • El equipo de cargas de trabajo decide mover las bases de datos SQL a Azure para reducir los tiempos de procesamiento de análisis. Una de las bases de datos se utiliza mucho durante el proceso de análisis por parte de las máquinas virtuales, por lo que el equipo debe asegurarse de que el estado de la base de datos pueda recuperarse con el RPO más bajo posible.

Aplicación del enfoque y los resultados

  • Dado que las bases de datos son grandes, de más de 4 TB cada una, la migración a Azure SQL Database no es factible a corto plazo. Por lo tanto, el equipo migra a máquinas virtuales de Azure que ejecutan SQL Server 2022.
  • El equipo decide usar la función Copia de seguridad automatizada para todas las bases de datos, incluidas las críticas, como la que usan las máquinas virtuales.
  • Para las bases de datos críticas, el equipo planea usar la función Copia de seguridad automatizada junto con la función de vínculo de Instancia administrada para replicar activamente las bases de datos en Azure SQL Managed Instance.

Implementar funcionalidades automáticas de autorreparación en el diseño

Las funcionalidades de autorreparación son mecanismos que permiten a los componentes de la carga de trabajo resolver automáticamente los problemas recuperando los componentes afectados y, en caso necesario, pasando a una infraestructura redundante. Use modelos de diseño para agregar resistencia a la carga de trabajo mediante mecanismos de autorreparación.

La automatización de autorreparación ayuda a reducir los riesgos derivados de factores externos, como la intervención humana, y acorta el ciclo break-fix

Desafío de Contoso

  • El proceso de Windows invocado desde Azure Data Factory al ingerir datos inicialmente se implementó en varias máquinas virtuales para aumentar la disponibilidad.
  • Se han producido algunos casos en los que el proceso heredado de Windows se ha bloqueado, lo que requiere un reinicio de la máquina virtual. Aunque el tiempo de procesamiento general se ha visto afectado mínimamente (debido al nivel de redundancia), el equipo desea implementar una solución que automatice la detección del error y la recuperación.

Aplicación del enfoque y los resultados

  • El equipo decide implementar una solución de conjunto de escalado de máquinas virtuales de Azure, que está configurada para implementar la extensión de estado de la aplicación para supervisar continuamente el estado del proceso de máquina virtual.
  • Con la reparación automática de instancias habilitada, el conjunto de escalado ahora puede reparar el componente reiniciando la máquina virtual o creando una nueva instancia basada en la misma imagen.

Comprobación de conocimientos

1.

¿Cuál de los siguientes es un ejemplo de métrica que ayuda a impulsar los planes de recuperación ante desastres?

2.

¿Cuál de los siguientes escenarios es un ejemplo de cómo tratar los datos con estado con fines de recuperación?

3.

Contoso tiene una aplicación de línea de negocio crítica en Azure. ¿De qué manera podrían implementar la autorreparación para mejorar la confiabilidad de su aplicación?