Procedimientos de mantenimiento de clústeres de conmutación por error

Artículo
04/18/2023

Se aplica a: Azure Stack HCI, versiones 22H2 y 21H2, Windows Server 2022, Windows Server 2019 y Windows Server 2016

En este artículo se da por supuesto que necesita apagar un servidor físico para realizar el mantenimiento o reiniciarlo por algún otro motivo. Para instalar actualizaciones en un clúster de Azure Stack HCI sin desconectar los servidores, consulte Actualización de clústeres de Azure Stack HCl.

Para desconectar un servidor a fin de realizar su mantenimiento, es necesario desconectar partes del almacenamiento que comparten todos los servidores de un clúster de conmutación por error. Para ello, es necesario pausar el servidor que quiere desconectar, colocar los discos del servidor en modo de mantenimiento, mover los roles en clúster y máquinas virtuales (VM) a otros servidores del clúster, y comprobar que todos los datos estén disponibles en los demás servidores del clúster. Este proceso garantiza que los datos permanezcan seguros y accesibles durante todo el período de mantenimiento.

Puede usar Windows Admin Center o PowerShell para desconectar un servidor para mantenimiento. En este tema se explican ambos métodos.

Desconexión de un servidor mediante Windows Admin Center

La manera más sencilla de prepararse para desconectar un servidor es mediante Windows Admin Center.

Comprobación de la seguridad de la desconexión del servidor

Utilice Windows Admin Center para conectarse al servidor que desea desconectar. Seleccione Storage > Disks (Almacenamiento > Discos) en el menú Tools (Herramientas) y compruebe que la columna Status (Estado) de cada disco virtual muestre Online (En línea).
A continuación, seleccione Storage > Volumes (Almacenamiento > Volúmenes) y compruebe que la columna Health (Estado) de cada volumen muestre Healthy (Correcto) y que la columna Status (Estado) de cada volumen muestre OK (Correcto).

Pausa y purga del servidor

Antes de apagar o reiniciar un servidor, debe pausar el servidor y purgar (quitar) cualquier rol en clúster, como las VM que se ejecutan en él. Pause y purgue siempre los servidores en clúster antes de dejarlos sin conexión para el mantenimiento.

Mediante Windows Admin Center, conéctese al clúster y, a continuación, seleccione Proceso > Servidores en el menú Herramientas del Administrador de clústeres.
Seleccione Inventario. Haga clic en el nombre del servidor que desea pausar y purgar y, a continuación, seleccione Pause (Pausar). Debería ver el mensaje siguiente:

Pausar los servidores para el mantenimiento: ¿está seguro de que desea pausar los servidores? Esto mueve las cargas de trabajo, como las máquinas virtuales, a otros servidores del clúster.
Seleccione yes (sí) para pausar el servidor e iniciar el proceso de purga. El estado del servidor se mostrará como En mantenimiento, Purgando, y los roles, como Hyper-V, y las VM iniciarán inmediatamente la migración en vivo a otros servidores del clúster. Esta operación puede tardar unos minutos. No se puede agregar ningún rol al servidor hasta que se reanude. Cuando finalice el proceso de purga, el estado del servidor se mostrará como En mantenimiento, Drain completed (Purga completada). El sistema operativo realiza una comprobación de seguridad automática para confirmar que es seguro continuar. Si hay volúmenes en mal estado, se detendrá y le avisará de que no es seguro continuar.

Apagado del servidor

Una vez que el servidor haya finalizado la purga, puede apagarlo de forma segura para mantenimiento o reiniciarlo.

Advertencia

Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, debe poner los discos en modo de mantenimiento antes de apagar el servidor y sacar los discos del modo de mantenimiento antes de reanudar el servidor en el clúster.

Reanudación del servidor

Cuando esté listo para que el servidor empiece a hospedar de nuevo los roles en clúster y las VM, solo tiene que activar el servidor, esperar a que arranque y reanudar el servidor con los pasos siguientes.

En el Administrador de clústeres, seleccione Proceso > Servidores en el menú Herramientas de la izquierda.
Seleccione Inventario. Haga clic en el nombre del servidor que quiere reanudar y, a continuación, haga clic en Reanudar.

Los roles en clúster y las VM iniciarán de inmediato la migración en vivo al servidor. Esta operación puede tardar unos minutos.

Espera a la resincronización del almacenamiento

Cuando el servidor se reanuda, las nuevas escrituras que se hayan producido mientras no estaba disponible deben volver a sincronizarse. Esto sucede automáticamente mediante el seguimiento de cambios inteligente. No es necesario que se examinen o sincronicen todos los datos, sino solo los cambios. Este proceso se limita para mitigar el impacto en las cargas de trabajo de producción. Dependiendo de cuánto tiempo se haya pausado el servidor y de la cantidad de datos nuevos que se hayan escrito, es posible que tarde varios minutos en completarse.

Importante

Debe esperar a que la resincronización se complete antes de desconectar otros servidores del clúster.

Para comprobar si la resincronización de almacenamiento está completa:

Conéctese al clúster mediante Windows Admin Center y seleccione Volúmenes de almacenamiento>.
Seleccione Inventario.
Compruebe la columna Estado de cada volumen. Si se muestra Correcto, se ha completado la resincronización de almacenamiento. Ahora es seguro desconectar otros servidores del clúster.

Desconexión de un servidor mediante PowerShell

Use los procedimientos siguientes para pausar, purgar y reanudar correctamente un servidor en un clúster de conmutación por error mediante PowerShell.

Comprobación de la seguridad de la desconexión del servidor

Para comprobar que el estado de todos los volúmenes es correcto, ejecute el siguiente cmdlet como administrador:

Get-VirtualDisk

El ejemplo siguiente muestra el aspecto que podría tener la salida:

FriendlyName              ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus    Size FootprintOnPool StorageEfficiency
------------              --------------------- --------------------- ----------------- ------------    ---- --------------- -----------------
Mirror II                 Mirror                1                     OK                Healthy         4 TB         8.01 TB            49.99%
Mirror-accelerated parity                                             OK                Healthy      1002 GB         1.96 TB            49.98%
Mirror                    Mirror                1                     OK                Healthy         1 TB            2 TB            49.98%
ClusterPerformanceHistory Mirror                1                     OK                Healthy        24 GB           49 GB            48.98%

Compruebe que el valor de la propiedad HealthStatus de cada volumen sea Healthy (Correcto) y que el valor de OperationalStatus sea OK (Correcto).

Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Almacenamiento>Discos.

Pausa y purga del servidor

Ejecute el siguiente cmdlet como administrador para pausar y pugar el servidor:

Suspend-ClusterNode -Drain

Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Nodos, haga clic con el botón derecho en el nodo y, luego, seleccione Pausa>Drain Roles (Purgar roles).

Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, al pausar y purgar el servidor también se pondrán en modo de mantenimiento los discos del servidor. Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, tendrá que hacerlo manualmente (consulte el paso siguiente).

Colocación de discos en modo de mantenimiento

En Azure Stack HCI, versión 20H2, Windows Server 2019 y Windows Server 2016, al poner los discos del servidor en modo de mantenimiento, la característica Espacios de almacenamiento directo tiene la oportunidad de vaciar y confirmar correctamente los datos para asegurarse de que el apagado del servidor no afecta al estado de la aplicación. En cuanto un disco entra en modo de mantenimiento, ya no permiten escrituras. Para minimizar los tiempos de resincronización del almacenamiento, se recomienda poner los discos en modo de mantenimiento justo antes del reinicio y sacarlos del modo de mantenimiento en cuanto se haga una copia de seguridad del sistema.

Nota:

Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, puede omitir este paso porque los discos se ponen automáticamente en modo de mantenimiento cuando el servidor se pausa y se purga. Estos sistemas operativos tienen una característica de reparación granular que hace que la resincronización sea más rápida y tenga un menor efecto sobre los recursos del sistema y de la red, lo que hace factible que el mantenimiento del servidor y el almacenamiento se hagan juntos.

Si el servidor ejecuta Windows Server 2019 o Azure Stack HCI, versión 20H2, ejecute el siguiente cmdlet como administrador:

Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode

Si el servidor ejecuta Windows Server 2016, use en su lugar la siguiente sintaxis:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode

Apagado del servidor

Una vez que el servidor haya finalizado la purga, mostrará el estado En pausa en PowerShell y en el Administrador de clústeres de conmutación por error.

Ahora puede apagar el servidor de forma segura o reiniciarlo con los cmdlets Stop-Computer o Restart-Computer de PowerShell o mediante el Administrador de clústeres de conmutación por error.

Nota:

Al ejecutar un comando Get-VirtualDisk en servidores que están cerrando o iniciando/deteniendo el servicio de clúster, el estado operativo del servidor puede aparecer como incompleto o degradado, y la columna Estado de mantenimiento puede mostrar una advertencia. Esto es normal y no debe causar ningún problema. Todos los volúmenes permanecen en línea y accesibles.

Retirada de los discos del modo de mantenimiento

Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, debe deshabilitar el modo de mantenimiento de almacenamiento en los discos antes de reanudar el servidor en el clúster. Para minimizar los tiempos de resincronización de almacenamiento, se recomienda sacarlos del modo de mantenimiento en cuanto se haga una copia de seguridad del sistema.

Nota:

Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, puede omitir este paso porque los discos se sacarán automáticamente del modo de mantenimiento cuando se reanude el servidor.

Si el servidor ejecuta Windows Server 2019 o Azure Stack HCI, versión 20H2, ejecute el siguiente cmdlet como administrador para deshabilitar el modo de mantenimiento de almacenamiento:

Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode

Si el servidor ejecuta Windows Server 2016, use en su lugar la siguiente sintaxis:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode

Reanudación del servidor

Reanude el servidor en el clúster. Para devolver los roles en clúster y las VM que se estaban ejecutando previamente en el servidor, use la marca -Failback opcional:

Resume-ClusterNode –Failback Immediate

Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Nodos, haga clic con el botón derecho en el nodo y, luego, seleccione Reanudar>Fail Roles Back (Conmutar los roles por recuperación).

Una vez que se haya reanudado el servidor, se mostrará como Activo en PowerShell.

Espera a la resincronización del almacenamiento

Cuando se reanude el servidor, debe esperar a que se complete la resincronización antes de desconectar ningún otro servidor del clúster.

Ejecute el siguiente cmdlet como administrador para supervisar el progreso:

Get-StorageJob

Si la resincronización ya se completó, no obtendrá ninguna salida.

Esta es una salida de ejemplo que muestra trabajos de resincronización (reparación) que todavía se están ejecutando:

Name   IsBackgroundTask ElapsedTime JobState  PercentComplete BytesProcessed BytesTotal
----   ---------------- ----------- --------  --------------- -------------- ----------
Repair True             00:06:23    Running   65              11477975040    17448304640
Repair True             00:06:40    Running   66              15987900416    23890755584
Repair True             00:06:52    Running   68              20104802841    22104819713

La columna BytesTotal muestra la cantidad de almacenamiento necesario para la resincronización. La columna PercentComplete muestra el progreso.

Advertencia

No es seguro desconectar otro servidor hasta que finalicen estos trabajos de reparación.

Durante este tiempo, en HealthStatus, los volúmenes se seguirán mostrando como Warning, que es normal.

Por ejemplo, si usa el cmdlet Get-VirtualDisk mientras se vuelve a sincronizar el almacenamiento, es posible que vea la siguiente salida:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                InService         Warning      True           1 TB
MyVolume2    Mirror                InService         Warning      True           1 TB
MyVolume3    Mirror                InService         Warning      True           1 TB

Una vez finalizados los trabajos, compruebe que los volúmenes muestran Healthy de nuevo mediante el cmdlet Get-VirtualDisk. A continuación se muestra una salida de ejemplo:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                OK                Healthy      True           1 TB
MyVolume2    Mirror                OK                Healthy      True           1 TB
MyVolume3    Mirror                OK                Healthy      True           1 TB

Ahora es seguro pausar y reiniciar otros servidores del clúster.

Pasos siguientes

Para obtener información relacionada, consulte:

Compartir a través de

Procedimientos de mantenimiento de clústeres de conmutación por error

Desconexión de un servidor mediante Windows Admin Center

Comprobación de la seguridad de la desconexión del servidor

Pausa y purga del servidor

Apagado del servidor

Reanudación del servidor

Espera a la resincronización del almacenamiento

Desconexión de un servidor mediante PowerShell

Comprobación de la seguridad de la desconexión del servidor

Pausa y purga del servidor

Colocación de discos en modo de mantenimiento

Apagado del servidor

Retirada de los discos del modo de mantenimiento

Reanudación del servidor

Espera a la resincronización del almacenamiento

Pasos siguientes

Comentarios

Recursos adicionales