Confiabilidad en Virtual Machines

Artículo
01/20/2025

Este artículo contiene información detallada sobre la resistencia regional de máquinas virtuales con zonas de disponibilidad y Recuperación ante desastres entre regiones y continuidad empresarial.

Compatibilidad de zonas de disponibilidad

Las zonas de disponibilidad son grupos físicamente separados de centros de datos dentro de cada región de Azure. Cuando se produce un error en una zona, los servicios pueden conmutar por error a una de las zonas restantes.

Para más información sobre las zonas de disponibilidad en Azure, consulte ¿Qué son las zonas de disponibilidad?

Las máquinas virtuales admiten zonas de disponibilidad con tres zonas de disponibilidad por región de Azure admitida y también son zonales y tienen redundancia de zona. Para más información, consulte Servicios de Azure con zonas de disponibilidad. El cliente es responsable de configurar y migrar sus máquinas virtuales para la disponibilidad.

Para obtener más información sobre las opciones de preparación de la zona de disponibilidad, consulte:

Consulte opciones de disponibilidad para máquinas virtuales
Revise la compatibilidad del servicio de zona de disponibilidad y la compatibilidad regional
Migración de máquinas virtuales existentes a zonas de disponibilidad

Prerrequisitos

Las SKU de máquina virtual deben estar disponibles en las zonas de su región. Para revisar qué regiones admiten zonas de disponibilidad, consulte la lista de regiones admitidas.
Las SKU de máquinas virtuales deben estar disponibles en las zonas de su región. Para comprobar la disponibilidad de las SKU de VM, use uno de los métodos siguientes:
- Use PowerShell para comprobar la disponibilidad de SKU de VM.
- Use CLI de Azure para comprobar la disponibilidad de SKU de VM.
- Vaya a Servicios de Azure con compatibilidad con zonas de disponibilidad.

Mejoras de SLA

Dado que las zonas de disponibilidad son físicamente independientes y proporcionan distintas fuentes de alimentación, red y refrigeración, los Acuerdos de Nivel de Servicio (acuerdos de nivel de servicio) incrementan. Para obtener más información, consulte Acuerdo de Nivel de Servicio para máquinas virtuales.

Creación de un recurso con zonas de disponibilidad habilitadas

Para empezar, cree una máquina virtual (VM) con la zona de disponibilidad habilitada desde las siguientes opciones de implementación:

Compatibilidad con la conmutación por error zonal

Puede configurar máquinas virtuales para la conmutación por error a otra zona mediante el servicio Site Recovery. Para obtener más información, consulte Site Recovery.

Tolerancia a errores

Las máquinas virtuales pueden conmutar por error a otro servidor de un clúster, reiniciando el sistema operativo de la máquina virtual en el nuevo servidor. Debe hacer referencia al proceso de conmutación por error para la recuperación ante desastres, recopilar máquinas virtuales en el planeamiento de la recuperación y ejecutar simulacros de recuperación ante desastres para asegurarse de que su solución de tolerancia a errores sea correcta.

Para obtener más información, consulte los procesos de Site Recovery.

Experiencia a nivel de zona

Durante una interrupción en toda la zona, es de esperar una breve degradación del rendimiento hasta que la recuperación automática del servicio de máquina virtual vuelva a equilibrar la capacidad subyacente para ajustarse a las zonas en buen estado. Esta recuperación automática no depende de la restauración de la zona. Se espera que el estado de recuperación automática del servicio administrado por Microsoft compense por una zona perdida mediante el uso de la capacidad de otras zonas.

También debe prepararse para la posibilidad de que haya una interrupción de toda una región. Si una región completa experimentara una interrupción del servicio, las copias con redundancia local de los datos estarían temporalmente no disponibles. Si la replicación geográfica está habilitada, se almacenan en otra región tres copias de los blobs y las tablas de Azure Storage. En caso de una interrupción completa en una región o de un desastre en el que la región primaria no sea recuperable, Azure reasignará todas las entradas DNS a la región de replicación geográfica.

Preparación y recuperación de interrupciones de zona

Se proporcionan las siguientes orientaciones para las máquinas virtuales de Azure en el caso de una interrupción del servicio en toda una región donde se ha implementado la aplicación de máquina virtual de Azure:

Configurar Azure Site Recovery para sus máquinas virtuales
Compruebe el estado del panel de Azure Service Health si Azure Site Recovery no se ha configurado
Revise cómo funciona el servicio Azure Backup para las máquinas virtuales
- Consulte la matriz de compatibilidad para las copias de seguridad de Azure VM
Determine qué opción y escenario de restauración de máquinas virtuales funcionarán mejor para su entorno

Diseño de baja latencia

Entre regiones (región secundaria), Entre suscripciones (versión preliminar) y Entre zonas (versión preliminar) están disponibles para tener en cuenta al diseñar una solución de máquina virtual de baja latencia. Para obtener más información sobre estas opciones, consulte los métodos de restauración admitidos.

Importante

Al no participar en la implementación compatible con la zona, se prescinde de la protección frente al aislamiento de los errores subyacentes. Al usar SKU que no admiten zonas de disponibilidad o no participar en la configuración de zona de disponibilidad, esto provoca que la dependencia de los recursos no obedezca a la selección de ubicación y separación de zonas (incluidas las dependencias subyacentes de estos recursos). No se debe esperar que estos recursos sobrevivan a escenarios de zona inactiva. Las soluciones que aprovechan estos recursos deben definir una estrategia de recuperación ante desastres y configurar una recuperación de la solución en otra región.

Técnicas de implementación segura

Al optar por el aislamiento de zonas de disponibilidad, debe usar técnicas de implementación seguras para el código y las actualizaciones de la aplicación. Además de configurar Azure Site Recovery e implementar cualquiera de las siguientes técnicas de implementación seguras para máquinas virtuales:

A medida que Microsoft realiza periódicamente actualizaciones de mantenimiento planeadas, puede haber instancias poco frecuentes cuando estas actualizaciones requieren un reinicio de la máquina virtual para aplicar las actualizaciones necesarias a la infraestructura subyacente. Para obtener más información, consulte consideraciones sobre disponibilidad durante el mantenimiento programado.

Antes de actualizar el siguiente conjunto de nodos de otra zona, debe realizar las siguientes tareas:

Compruebe el panel de Azure Service Health para ver el estado del servicio de máquinas virtuales para las regiones esperadas.
Asegúrese de que la replicación esté habilitada en las máquinas virtuales.

Soporte técnico para la migración a la zona de disponibilidad

Para obtener información sobre cómo migrar a la compatibilidad con zonas de disponibilidad, consulte Migración de Virtual Machines y Virtual Machine Scale Sets a la compatibilidad con zonas de disponibilidad.

Traslado de una máquina virtual a otra suscripción o grupo de recursos
- CLI
- PowerShell
Azure Resource Mover
Traslado de máquinas virtuales de Azure a zonas de disponibilidad
Traslado de recursos de configuración de mantenimiento de regiones

Recuperación ante desastres entre regiones y continuidad empresarial

La recuperación ante desastres (DR) consiste en recuperarse de eventos de alto impacto, como desastres naturales o implementaciones con errores, lo que produce tiempo de inactividad y pérdida de datos. Independientemente de la causa, el mejor remedio para un desastre es un plan de recuperación ante desastres bien definido y probado y un diseño de aplicaciones que apoye activamente la recuperación ante desastres. Antes de empezar a pensar en la creación del plan de recuperación ante desastres, vea Recomendaciones para diseñar una estrategia de recuperación ante desastres.

En lo que respecta a la recuperación ante desastres, Microsoft usa el modelo de responsabilidad compartida. En un modelo de responsabilidad compartida, Microsoft garantiza que la infraestructura de línea base y los servicios de plataforma estén disponibles. Al mismo tiempo, muchos servicios de Azure no replican automáticamente datos ni se revierten desde una región con errores para realizar la replicación cruzada en otra región habilitada. En esos servicios, es responsable de configurar un plan de recuperación ante desastres válido para su carga de trabajo. La mayoría de los servicios que se ejecutan en ofertas de plataforma como servicio (PaaS) de Azure proporcionan características e instrucciones para admitir la recuperación ante desastres y puede usar características específicas del servicio para admitir la recuperación rápida para ayudar a desarrollar el plan de recuperación ante desastres.

Puede usar la restauración entre regiones para restaurar máquinas virtuales de Azure a través de regiones emparejadas. Con la restauración entre regiones, puede restaurar todas las VM de Azure del punto de recuperación seleccionado si la copia de seguridad se realiza en la región secundaria. Para obtener más información sobre la restauración entre regiones, consulte la entrada de fila de tabla Entre regiones en nuestras opciones de restauración.

Recuperación ante desastres en la geografía de varias regiones

En el caso de una interrupción del servicio en toda la región, Microsoft trabaja diligentemente para restaurar el servicio de máquina virtual. Sin embargo, debe confiar en otras estrategias de copia de seguridad específicas de la aplicación para lograr el máximo nivel de disponibilidad. Para obtener más información, consulte la sección sobre las estrategias de datos para la recuperación ante desastres.

Detección, notificación y administración de interrupciones

El hardware o la infraestructura física de la máquina virtual pueden producir un error inesperado. Los errores inesperados pueden incluir errores de la red local, errores de los discos locales u otros errores de nivel de bastidor. Cuando se detecta, la plataforma de Azure migra (recupera) automáticamente la máquina virtual a una máquina física en estado correcto en el mismo centro de datos. Durante el procedimiento de recuperación, las máquinas virtuales experimentan tiempos de inactividad (reinicio) y, en algunos casos, pérdidas de la unidad temporal. El sistema operativo y los discos de datos asociados siempre se conservan.

Para obtener información más detallada sobre las interrupciones del servicio de máquina virtual, consulte la guía de recuperación ante desastres.

Configuración de la recuperación ante desastres y la detección de interrupciones

Al configurar la recuperación ante desastres para máquinas virtuales, comprenda lo que proporciona Azure Site Recovery. Habilite la recuperación ante desastres para máquinas virtuales con estos métodos:

Configuración de la recuperación ante desastres en una región secundaria de Azure de una máquina virtual de Azure
Creación de un almacén de Recovery Services
- Bicep
- Plantilla ARM
Habilitar la recuperación ante desastres para máquinas virtuales Linux
Habilitar la recuperación ante desastres para máquinas virtuales Windows
Conmutación por error de máquinas virtuales a otra región
Conmutación por error de máquinas virtuales a la región primaria

Recuperación ante desastres en una sola región geográfica

Con la configuración de la recuperación ante desastres, las máquinas virtuales de Azure se replican continuamente en una región de destino diferente. Si se produce una interrupción, puede conmutar por error las máquinas virtuales en la región secundaria y acceder a ellas desde allí.

Al replicar máquinas virtuales de Azure con Site Recovery, todos los discos de máquina virtual se replican continuamente de forma asincrónica en la región de destino. Los puntos de recuperación se crean cada pocos minutos, lo que le concede un objetivo de punto de recuperación (RPO) en minutos. Puede realizar tantos simulacros de recuperación ante desastres como desee, sin que afecte a la aplicación de producción ni a la replicación en curso. Para más información, consulte Ejecución de un simulacro de recuperación ante desastres en Azure.

Para obtener más información, consulte componentes de arquitectura de máquinas virtuales de Azure y emparejamiento de regiones.

Capacidad y resistencia proactiva de la recuperación ante desastres

Microsoft y sus clientes operan bajo el modelo de responsabilidad compartida. La responsabilidad compartida significa que en el caso de la DR habilitada por el cliente (servicios responsabilidad del cliente), debe abordar la DR para cualquier servicio que implemente y controle. Para asegurarse de que la recuperación sea proactiva, debe siempre implementar previamente regiones secundarias, ya que no hay ninguna garantía de que haya capacidad en el momento del impacto para aquellos que no las hayan asignado previamente.

Para implementar máquinas virtuales, puede usar el modo de orquestación flexible en Virtual Machine Scale Sets. Todos los tamaños de máquina virtual se pueden usar con el modo de orquestación flexible. El modo de orquestación flexible también ofrece garantías de alta disponibilidad (hasta 1 000 máquinas virtuales) mediante la propagación de máquinas virtuales entre dominios de error en una región o en una zona de disponibilidad.

Compartir a través de