Reparación de un nodo en Azure Local

Artículo
03/08/2025

Se aplica a: Azure Local 2311.2 y versiones posteriores

En este artículo se describe cómo reparar un nodo en la instancia local de Azure. En este artículo, cada servidor se conoce como nodo.

Acerca de los nodos de reparación

Azure Local es un sistema hiperconvergido que permite reparar nodos de sistemas existentes. Es posible que tenga que reparar un nodo en un sistema si se produce un error de hardware.

Antes de reparar un nodo, asegúrese de comprobar con el proveedor de soluciones, qué componentes del nodo son unidades de reemplazo de campo (FRU) que puede reemplazar usted mismo y qué componentes requerirían que un técnico reemplace.

Las partes que admiten el intercambio frecuente normalmente no requieren que se vuelva a crear la imagen del nodo, a diferencia de los componentes que no se pueden intercambiar en caliente, como la placa base. Consulte al fabricante del hardware para determinar qué reemplazos de componentes requerirían que se vuelva a crear la imagen del nodo. Para obtener más información, consulte Reemplazo de componentes.

Reparación del flujo de trabajo del nodo

En el diagrama de flujo siguiente se muestra el proceso general para reparar un nodo.

*Es posible que el nodo no esté en un estado en el que el apagado sea posible o necesario*

Para reparar un nodo existente, siga estos pasos generales:

Si es posible, apague el nodo que desea reparar. Dependiendo del estado del nodo, es posible que un apagado no sea posible o necesario.
Vuelva a crear la imagen del nodo que debe repararse.
Ejecute la operación del nodo de reparación. El sistema operativo, los controladores y el firmware de Azure Stack HCI se actualizan como parte de la operación de reparación.

El almacenamiento se reequilibró automáticamente en el nodo reimaged. El reequilibrio de almacenamiento es una tarea de prioridad baja que se puede ejecutar durante varios días en función del número de nodos y del almacenamiento usado.

Escenarios admitidos

La reparación de un nodo vuelve a crear una imagen de un nodo y la devuelve al sistema con el nombre y la configuración anteriores.

La reparación de un solo nodo da como resultado una reimplementación con la opción de conservar los volúmenes de datos. Solo se elimina el volumen del sistema y se aprovisiona recientemente durante la implementación.

Importante

Asegúrese de que siempre tiene copias de seguridad para las cargas de trabajo y no se basa solo en la resistencia del sistema. Esto es especialmente crítico en escenarios de nodo único.

Configuración de resistencia

En esta versión, para una operación de nodo de reparación, no se realizan tareas específicas en los volúmenes de carga de trabajo que creó después de la implementación. En el caso de una operación de nodo de reparación, solo se restauran los volúmenes de infraestructura necesarios y los volúmenes de carga de trabajo se exponen como volúmenes compartidos de clúster (CSV).

Los demás volúmenes de carga de trabajo que creó después de que la implementación todavía se conservan y puede detectar estos volúmenes mediante la ejecución del Get-VirtualDisk cmdlet . Deberá desbloquear manualmente el volumen (si el volumen tiene Habilitado BitLocker) y crear un CSV (si es necesario).

Requisitos de hardware

Al reparar un nodo, el sistema valida el hardware del nuevo nodo entrante y garantiza que el nodo cumpla los requisitos de hardware antes de agregarlo al sistema.

Componente	Comprobación de cumplimiento
CPU	Valide que el nuevo nodo tenga el mismo número de núcleos de CPU o más. Si los núcleos de CPU del nodo entrante no cumplen este requisito, se mostrará una advertencia. Sin embargo, se permite la operación.
Memoria	Valide que el nuevo nodo tenga instalada la misma cantidad de memoria o más. Si la memoria del nodo entrante no cumple este requisito, se mostrará una advertencia. Sin embargo, se permite la operación.
Unidades	Compruebe que el nuevo nodo tiene el mismo número de unidades de datos disponibles para Espacios de almacenamiento directo. Si el número de unidades del nodo entrante no cumple este requisito, se notifica un error y se bloquea la operación.

Reemplazo de nodo

Puede reemplazar todo el nodo:

Con un nuevo nodo que tiene un número de serie diferente en comparación con el nodo anterior.
Con el nodo actual después de volver a crear la imagen.

Se admiten los siguientes escenarios durante el reemplazo del nodo:

Nodo	Disco	Compatible
Nuevo nodo	Discos nuevos	Sí
Nuevo nodo	Discos actuales	Sí
Nodo actual (reimaged)	Discos actuales con formato **	No
Nodo actual (reimaged)	Discos nuevos	Sí
Nodo actual (reimaged)	Discos actuales	Sí

**Los discos usados por Espacios de almacenamiento directo requieren una limpieza adecuada. El reformateo no es suficiente. Vea cómo limpiar unidades.

Importante

Si reemplaza un componente durante la reparación del nodo, no es necesario reemplazar ni restablecer unidades de datos. Si reemplaza una unidad o lo restablece, la unidad no se reconocerá una vez que el nodo se una al sistema.

Reemplazo de los componentes

En la instancia local de Azure, los componentes no intercambiables en caliente incluyen los siguientes elementos:

Controlador de administración de placa base (BMC)/tarjeta de vídeo
Controlador de disco/adaptador de bus host (HBA)/backplace
Adaptador de red
Unidad de procesamiento de gráficos
Unidades de datos (unidades que no admiten intercambio directo, por ejemplo, tarjeta complementaria PCI-e)

Los pasos de reemplazo reales para componentes no intercambiables en caliente varían en función del proveedor de hardware del fabricante de equipos originales (OEM). Consulte la documentación del proveedor de OEM si se requiere una reparación de nodo para componentes no intercambiables en caliente.

Requisitos previos

Antes de reparar un nodo, debe asegurarse de que:

AzureStackLCMUser está activo en Active Directory. Para obtener más información, consulte Preparación de Active Directory.
Ha iniciado sesión como AzureStackLCMUser u otro usuario con permisos equivalentes.
Las credenciales de no AzureStackLCMUser han cambiado.

Si es necesario, tome el nodo que ha identificado para reparar sin conexión. Siga los pasos descritos aquí:

Reparación de un nodo

En esta sección se describe cómo reparar un nodo mediante PowerShell, supervisar el estado de la Repair-Server operación y solucionar problemas, si hay algún problema.

Asegúrese de que ha revisado los requisitos previos.

Siga estos pasos en el nodo que intenta reparar.

Inicie sesión en Azure Portal con Permisos de rol de administrador de Azure Stack HCI.
1. Vaya al grupo de recursos que se usa para implementar la instancia de Azure Local. En el grupo de recursos, identifique el recurso de máquina de Azure Arc para el nodo defectuoso que desea reparar.
2. En el recurso de máquina de Azure Arc, vaya a Configuración > Bloqueos. En el panel derecho, ves un bloqueo de recursos.
3. Seleccione el bloqueo y, a continuación, seleccione el icono de papelera para eliminar el bloqueo.
4. En la página de Información general del recurso de máquina de Azure Arc, en el panel derecho, seleccione Eliminar. Esta acción debería eliminar el nodo de la máquina defectuosa.
Instale el sistema operativo y los controladores necesarios en el nodo que desea reparar. Siga los pasos descritos en Instalación del sistema operativo Azure Stack HCI, versión 23H2.

Nota:

Si ha implementado la instancia local de Azure mediante direcciones IP de almacenamiento personalizadas, debe asignar manualmente direcciones IP a los adaptadores de red de almacenamiento después de reparar el nodo.
Registre el nodo con Arc. Siga los pasos descritos en Registro con Arc y configuración de permisos.

Nota:

Debe usar los mismos parámetros que los nodos existentes para registrarse en Arc. Por ejemplo: Nombre del grupo de recursos, Región, Suscripción e Inquilino.
Asigne los permisos siguientes al nodo reparado:
- Rol de Administración de dispositivos local de Azure
- Usuario de secretos de Key Vault Para obtener más información, consulte Asignación de permisos al nodo.

Siga estos pasos en otro nodo que sea miembro de la misma instancia local de Azure.

Si ejecuta una versión anterior a la 2405.3, debe ejecutar el siguiente comando para limpiar los archivos en conflicto:

Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force

Inicie sesión en el nodo que ya es miembro del sistema, con las credenciales de usuario de dominio que proporcionó durante la implementación del sistema. Ejecute el siguiente comando para reparar el nodo entrante:
```
$Cred = Get-Credential 
Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
```
Nota:

El nombre del nodo debe ser el nombre netBIOS. El parámetro LocalAdminCredential, de forma predeterminada, es la cuenta de administrador integrada creada por la instalación del sistema operativo Windows.
Anote el identificador de la operación como salida por el Repair-Server comando . Lo usará más adelante para supervisar el progreso de la Repair-Server operación.

Supervisar el progreso de la operación

Para supervisar el progreso de la operación agregar nodo, siga estos pasos:

Ejecute el siguiente cmdlet y proporcione el identificador de operación del paso anterior.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Una vez completada la operación, el trabajo de reequilibrio de almacenamiento en segundo plano seguirá ejecutándose. Espere a que se complete el trabajo de reequilibrio de almacenamiento. Para comprobar el progreso de este trabajo de reequilibrio de almacenamiento, use el siguiente cmdlet:
```
Get-VirtualDisk|Get-StorageJob
```
Si el trabajo de reequilibrio de almacenamiento está completo, el cmdlet no devolverá una salida.

Escenarios de recuperación

Los siguientes escenarios de recuperación y los pasos de mitigación recomendados se tabulan para reparar un nodo:

Descripción del escenario	Mitigación	¿Compatible?
Error en la operación del nodo de reparación.	Para completar la operación, investigue el error. Vuelva a ejecutar la operación con error mediante `Repair-Server -Rerun`.	Sí
La operación de reparación del nodo se realizó correctamente parcialmente, pero tuvo que empezar con una instalación del sistema de operación nueva.	En este escenario, el orquestador (también conocido como Administrador de ciclo de vida) ya ha actualizado su almacén de conocimiento con el nuevo nodo. Use el escenario de nodo de reparación.	Sí

Solución de problemas

Si experimenta errores o errores al reparar un nodo, puede capturar la salida de los errores en un archivo de registro.

Inicie sesión con las credenciales de usuario del dominio que proporcionó durante la implementación del sistema. Capture el problema en los archivos de registro.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Para volver a ejecutar la operación con errores, use el siguiente cmdlet:
```
Repair-Server -Rerun
```

Pasos siguientes

Obtenga más información sobre cómo agregar un nodo.

Compartir a través de