Procedimientos de mantenimiento de clústeres de conmutación por error
Se aplica a: Azure Stack HCI, versiones 22H2 y 21H2, Windows Server 2022, Windows Server 2019 y Windows Server 2016
En este artículo se da por supuesto que necesita apagar un servidor físico para realizar el mantenimiento o reiniciarlo por algún otro motivo. Para instalar actualizaciones en un clúster de Azure Stack HCI sin desconectar los servidores, consulte Actualización de clústeres de Azure Stack HCl.
Para desconectar un servidor a fin de realizar su mantenimiento, es necesario desconectar partes del almacenamiento que comparten todos los servidores de un clúster de conmutación por error. Para ello, es necesario pausar el servidor que quiere desconectar, colocar los discos del servidor en modo de mantenimiento, mover los roles en clúster y máquinas virtuales (VM) a otros servidores del clúster, y comprobar que todos los datos estén disponibles en los demás servidores del clúster. Este proceso garantiza que los datos permanezcan seguros y accesibles durante todo el período de mantenimiento.
Puede usar Windows Admin Center o PowerShell para desconectar un servidor para mantenimiento. En este tema se explican ambos métodos.
Desconexión de un servidor mediante Windows Admin Center
La manera más sencilla de prepararse para desconectar un servidor es mediante Windows Admin Center.
Comprobación de la seguridad de la desconexión del servidor
Utilice Windows Admin Center para conectarse al servidor que desea desconectar. Seleccione Storage > Disks (Almacenamiento > Discos) en el menú Tools (Herramientas) y compruebe que la columna Status (Estado) de cada disco virtual muestre Online (En línea).
A continuación, seleccione Storage > Volumes (Almacenamiento > Volúmenes) y compruebe que la columna Health (Estado) de cada volumen muestre Healthy (Correcto) y que la columna Status (Estado) de cada volumen muestre OK (Correcto).
Pausa y purga del servidor
Antes de apagar o reiniciar un servidor, debe pausar el servidor y purgar (quitar) cualquier rol en clúster, como las VM que se ejecutan en él. Pause y purgue siempre los servidores en clúster antes de dejarlos sin conexión para el mantenimiento.
Mediante Windows Admin Center, conéctese al clúster y, a continuación, seleccione Proceso > Servidores en el menú Herramientas del Administrador de clústeres.
Seleccione Inventario. Haga clic en el nombre del servidor que desea pausar y purgar y, a continuación, seleccione Pause (Pausar). Debería ver el mensaje siguiente:
Pausar los servidores para el mantenimiento: ¿está seguro de que desea pausar los servidores? Esto mueve las cargas de trabajo, como las máquinas virtuales, a otros servidores del clúster.
Seleccione yes (sí) para pausar el servidor e iniciar el proceso de purga. El estado del servidor se mostrará como En mantenimiento, Purgando, y los roles, como Hyper-V, y las VM iniciarán inmediatamente la migración en vivo a otros servidores del clúster. Esta operación puede tardar unos minutos. No se puede agregar ningún rol al servidor hasta que se reanude. Cuando finalice el proceso de purga, el estado del servidor se mostrará como En mantenimiento, Drain completed (Purga completada). El sistema operativo realiza una comprobación de seguridad automática para confirmar que es seguro continuar. Si hay volúmenes en mal estado, se detendrá y le avisará de que no es seguro continuar.
Apagado del servidor
Una vez que el servidor haya finalizado la purga, puede apagarlo de forma segura para mantenimiento o reiniciarlo.
Advertencia
Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, debe poner los discos en modo de mantenimiento antes de apagar el servidor y sacar los discos del modo de mantenimiento antes de reanudar el servidor en el clúster.
Reanudación del servidor
Cuando esté listo para que el servidor empiece a hospedar de nuevo los roles en clúster y las VM, solo tiene que activar el servidor, esperar a que arranque y reanudar el servidor con los pasos siguientes.
En el Administrador de clústeres, seleccione Proceso > Servidores en el menú Herramientas de la izquierda.
Seleccione Inventario. Haga clic en el nombre del servidor que quiere reanudar y, a continuación, haga clic en Reanudar.
Los roles en clúster y las VM iniciarán de inmediato la migración en vivo al servidor. Esta operación puede tardar unos minutos.
Espera a la resincronización del almacenamiento
Cuando el servidor se reanuda, las nuevas escrituras que se hayan producido mientras no estaba disponible deben volver a sincronizarse. Esto sucede automáticamente mediante el seguimiento de cambios inteligente. No es necesario que se examinen o sincronicen todos los datos, sino solo los cambios. Este proceso se limita para mitigar el impacto en las cargas de trabajo de producción. Dependiendo de cuánto tiempo se haya pausado el servidor y de la cantidad de datos nuevos que se hayan escrito, es posible que tarde varios minutos en completarse.
Importante
Debe esperar a que la resincronización se complete antes de desconectar otros servidores del clúster.
Para comprobar si la resincronización de almacenamiento está completa:
- Conéctese al clúster mediante Windows Admin Center y seleccione Volúmenes de almacenamiento>.
- Seleccione Inventario.
- Compruebe la columna Estado de cada volumen. Si se muestra Correcto, se ha completado la resincronización de almacenamiento. Ahora es seguro desconectar otros servidores del clúster.
Desconexión de un servidor mediante PowerShell
Use los procedimientos siguientes para pausar, purgar y reanudar correctamente un servidor en un clúster de conmutación por error mediante PowerShell.
Comprobación de la seguridad de la desconexión del servidor
Para comprobar que el estado de todos los volúmenes es correcto, ejecute el siguiente cmdlet como administrador:
Get-VirtualDisk
El ejemplo siguiente muestra el aspecto que podría tener la salida:
FriendlyName ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus Size FootprintOnPool StorageEfficiency
------------ --------------------- --------------------- ----------------- ------------ ---- --------------- -----------------
Mirror II Mirror 1 OK Healthy 4 TB 8.01 TB 49.99%
Mirror-accelerated parity OK Healthy 1002 GB 1.96 TB 49.98%
Mirror Mirror 1 OK Healthy 1 TB 2 TB 49.98%
ClusterPerformanceHistory Mirror 1 OK Healthy 24 GB 49 GB 48.98%
Compruebe que el valor de la propiedad HealthStatus de cada volumen sea Healthy (Correcto) y que el valor de OperationalStatus sea OK (Correcto).
Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Almacenamiento>Discos.
Pausa y purga del servidor
Ejecute el siguiente cmdlet como administrador para pausar y pugar el servidor:
Suspend-ClusterNode -Drain
Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Nodos, haga clic con el botón derecho en el nodo y, luego, seleccione Pausa>Drain Roles (Purgar roles).
Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, al pausar y purgar el servidor también se pondrán en modo de mantenimiento los discos del servidor. Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, tendrá que hacerlo manualmente (consulte el paso siguiente).
Colocación de discos en modo de mantenimiento
En Azure Stack HCI, versión 20H2, Windows Server 2019 y Windows Server 2016, al poner los discos del servidor en modo de mantenimiento, la característica Espacios de almacenamiento directo tiene la oportunidad de vaciar y confirmar correctamente los datos para asegurarse de que el apagado del servidor no afecta al estado de la aplicación. En cuanto un disco entra en modo de mantenimiento, ya no permiten escrituras. Para minimizar los tiempos de resincronización del almacenamiento, se recomienda poner los discos en modo de mantenimiento justo antes del reinicio y sacarlos del modo de mantenimiento en cuanto se haga una copia de seguridad del sistema.
Nota:
Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, puede omitir este paso porque los discos se ponen automáticamente en modo de mantenimiento cuando el servidor se pausa y se purga. Estos sistemas operativos tienen una característica de reparación granular que hace que la resincronización sea más rápida y tenga un menor efecto sobre los recursos del sistema y de la red, lo que hace factible que el mantenimiento del servidor y el almacenamiento se hagan juntos.
Si el servidor ejecuta Windows Server 2019 o Azure Stack HCI, versión 20H2, ejecute el siguiente cmdlet como administrador:
Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode
Si el servidor ejecuta Windows Server 2016, use en su lugar la siguiente sintaxis:
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode
Apagado del servidor
Una vez que el servidor haya finalizado la purga, mostrará el estado En pausa en PowerShell y en el Administrador de clústeres de conmutación por error.
Ahora puede apagar el servidor de forma segura o reiniciarlo con los cmdlets Stop-Computer
o Restart-Computer
de PowerShell o mediante el Administrador de clústeres de conmutación por error.
Nota:
Al ejecutar un comando Get-VirtualDisk
en servidores que están cerrando o iniciando/deteniendo el servicio de clúster, el estado operativo del servidor puede aparecer como incompleto o degradado, y la columna Estado de mantenimiento puede mostrar una advertencia. Esto es normal y no debe causar ningún problema. Todos los volúmenes permanecen en línea y accesibles.
Retirada de los discos del modo de mantenimiento
Si el servidor ejecuta Azure Stack HCI, versión 20H2, Windows Server 2019 o Windows Server 2016, debe deshabilitar el modo de mantenimiento de almacenamiento en los discos antes de reanudar el servidor en el clúster. Para minimizar los tiempos de resincronización de almacenamiento, se recomienda sacarlos del modo de mantenimiento en cuanto se haga una copia de seguridad del sistema.
Nota:
Si el servidor ejecuta la versión 21H2 de Azure Stack HCI o Windows Server 2022, puede omitir este paso porque los discos se sacarán automáticamente del modo de mantenimiento cuando se reanude el servidor.
Si el servidor ejecuta Windows Server 2019 o Azure Stack HCI, versión 20H2, ejecute el siguiente cmdlet como administrador para deshabilitar el modo de mantenimiento de almacenamiento:
Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode
Si el servidor ejecuta Windows Server 2016, use en su lugar la siguiente sintaxis:
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode
Reanudación del servidor
Reanude el servidor en el clúster. Para devolver los roles en clúster y las VM que se estaban ejecutando previamente en el servidor, use la marca -Failback opcional:
Resume-ClusterNode –Failback Immediate
Para hacerlo con el Administrador de clústeres de conmutación por error, vaya a Nodos, haga clic con el botón derecho en el nodo y, luego, seleccione Reanudar>Fail Roles Back (Conmutar los roles por recuperación).
Una vez que se haya reanudado el servidor, se mostrará como Activo en PowerShell.
Espera a la resincronización del almacenamiento
Cuando se reanude el servidor, debe esperar a que se complete la resincronización antes de desconectar ningún otro servidor del clúster.
Ejecute el siguiente cmdlet como administrador para supervisar el progreso:
Get-StorageJob
Si la resincronización ya se completó, no obtendrá ninguna salida.
Esta es una salida de ejemplo que muestra trabajos de resincronización (reparación) que todavía se están ejecutando:
Name IsBackgroundTask ElapsedTime JobState PercentComplete BytesProcessed BytesTotal
---- ---------------- ----------- -------- --------------- -------------- ----------
Repair True 00:06:23 Running 65 11477975040 17448304640
Repair True 00:06:40 Running 66 15987900416 23890755584
Repair True 00:06:52 Running 68 20104802841 22104819713
La columna BytesTotal muestra la cantidad de almacenamiento necesario para la resincronización. La columna PercentComplete muestra el progreso.
Advertencia
No es seguro desconectar otro servidor hasta que finalicen estos trabajos de reparación.
Durante este tiempo, en HealthStatus, los volúmenes se seguirán mostrando como Warning, que es normal.
Por ejemplo, si usa el cmdlet Get-VirtualDisk
mientras se vuelve a sincronizar el almacenamiento, es posible que vea la siguiente salida:
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror InService Warning True 1 TB
MyVolume2 Mirror InService Warning True 1 TB
MyVolume3 Mirror InService Warning True 1 TB
Una vez finalizados los trabajos, compruebe que los volúmenes muestran Healthy de nuevo mediante el cmdlet Get-VirtualDisk
. A continuación se muestra una salida de ejemplo:
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror OK Healthy True 1 TB
MyVolume2 Mirror OK Healthy True 1 TB
MyVolume3 Mirror OK Healthy True 1 TB
Ahora es seguro pausar y reiniciar otros servidores del clúster.
Pasos siguientes
Para obtener información relacionada, consulte: