Compartir vía


Escenarios de conmutación por error de clúster en el dispositivo GPU Azure Stack Edge Pro

En este artículo se identifican los escenarios comunes de conmutación por error, cómo responde el dispositivo Azure Stack Edge y el impacto general en las cargas de trabajo implementadas en el clúster en caso de que se produzca una conmutación por error.

Acerca de la conmutación por error

Azure Stack Edge se puede configurar como un único dispositivo independiente o un clúster de dos nodos. En un clúster de dos nodos, los nodos en clúster proporcionan alta disponibilidad para las aplicaciones y los servicios que se ejecutan en el clúster.

Si se produce un error en uno de los nodos en clúster, el otro nodo comienza a proporcionar servicio (el proceso se conoce como conmutación por error). También puede producirse una conmutación por error si tiene lugar un error en los componentes de hardware asociados a uno o ambos nodos del dispositivo, como unidades de disco, unidades de fuente de alimentación (PSU), error de red o al actualizar los nodos del dispositivo.

Escenarios de conmutación por error

La conmutación por error puede producirse como resultado de un error de componente de hardware, un error de nodo o al actualizar el clúster de Azure Stack Edge.

Errores de hardware

En estas tablas se resumen los escenarios de error de un componente de hardware físico asociado al clúster del dispositivo, como una o varias unidades de disco, fuente de alimentación o red.

Errores de la unidad de disco

Nodo A Nodo B El clúster sobrevive Conmutación por error Detalles
Error en una unidad de disco Sin errores No El clúster se degrada hasta que se reemplaza el disco.
Error en dos o más unidades de disco Sin errores No El clúster se degrada hasta que se reemplaza el disco.
Error en una o más unidades de disco Error en una o más unidades de disco No El clúster se queda sin conexión.

Errores en la unidad de alimentación

Nodo A Nodo B El clúster sobrevive Conmutación por error Detalles
Error en una fuente de alimentación Sin errores No Otro error en la fuente de alimentación del nodo A dará lugar a la conmutación por error al nodo B.
Error en una fuente de alimentación Error en una fuente de alimentación No Otro error en la fuente de alimentación de cualquier nodo dará lugar a la conmutación por error.
Error en dos fuentes de alimentación Sin errores Las VM del nodo A conmutan por error al nodo B.
Error en dos fuentes de alimentación (pendiente de confirmación) Error en una fuente de alimentación Las VM del nodo A conmutan por error al nodo B.
Error en dos fuentes de alimentación Error en dos fuentes de alimentación No El clúster se queda sin conexión.

Errores de red

Nodo A Nodo B El clúster sobrevive Conmutación por error Detalles
Error en los puertos 1, 2, 5 o 6 Sin errores No El puerto con error no está disponible. Las aplicaciones que escuchan en este puerto se verán afectadas.
Error en el puerto 3 o en el puerto 4, o en ambos Sin errores Las VM del nodo A conmutan por error al nodo B.

Errores y actualizaciones en el nodo

Error en el nodo

En esta tabla se resumen los escenarios de error cuando se produce un error en todo un nodo en el clúster.

Nodo A Nodo B El clúster sobrevive Conmutación por error Detalles
Error en todo el nodo Sin errores Las VM del nodo A conmutan por error al nodo B
Error en todo el nodo Error en todo el nodo No - El clúster se queda sin conexión
Reboot Sin errores Las VM del nodo A conmutan por error al nodo B
Reboot Reboot No - El clúster se queda sin conexión hasta que se complete el reinicio
Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. Sin errores Las VM del nodo A conmutan por error al nodo B
Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. No - El clúster se queda sin conexión

Actualización del nodo

Nodo A Nodo B El clúster sobrevive Conmutación por error Detalles
Actualización del nodo Sin errores Las VM del nodo A conmutan por error al nodo B
Actualización del nodo Error en dos fuentes de alimentación No - El clúster se queda sin conexión
Actualización del nodo Error en todo el nodo o se queda sin conexión No - El clúster se queda sin conexión
Actualización del nodo Reboot No - El clúster se queda sin conexión
Actualización del nodo Error en el componente principal, como la placa base, el módulo DIMM y el disco del sistema operativo. No - El clúster se queda sin conexión

Pasos siguientes