Reparación de un nodo en Azure Local, versión 23H2
Se aplica a: Azure Local, versión 23H2
En este artículo se describe cómo reparar un nodo en la instancia local de Azure. En este artículo, cada servidor se conoce como nodo.
Acerca de los nodos de reparación
Azure Local es un sistema hiperconvergido que permite reparar nodos de sistemas existentes. Es posible que tenga que reparar un nodo en un sistema si se produce un error de hardware.
Antes de reparar un nodo, asegúrese de comprobar con el proveedor de soluciones, qué componentes del nodo son unidades de reemplazo de campo (FRU) que puede reemplazar usted mismo y qué componentes requerirían que un técnico reemplace.
Las partes que admiten el intercambio frecuente normalmente no requieren que se vuelva a crear la imagen del nodo, a diferencia de los componentes que no se pueden intercambiar en caliente, como la placa base. Consulte al fabricante del hardware para determinar qué reemplazos de componentes requerirían que se vuelva a crear la imagen del nodo. Para obtener más información, consulte Reemplazo de componentes.
Reparación del flujo de trabajo del nodo
En el diagrama de flujo siguiente se muestra el proceso general para reparar un nodo.
*Es posible que el nodo no esté en un estado en el que el apagado sea posible o necesario*
Para reparar un nodo existente, siga estos pasos generales:
Si es posible, apague el nodo que desea reparar. Dependiendo del estado del nodo, es posible que un apagado no sea posible o necesario.
Vuelva a crear la imagen del nodo que debe repararse.
Ejecute la operación del nodo de reparación. El sistema operativo, los controladores y el firmware de Azure Stack HCI se actualizan como parte de la operación de reparación.
El almacenamiento se reequilibró automáticamente en el nodo reimaged. El reequilibrio de almacenamiento es una tarea de prioridad baja que se puede ejecutar durante varios días en función del número de nodos y del almacenamiento usado.
Escenarios admitidos
La reparación de un nodo vuelve a crear una imagen de un nodo y la devuelve al sistema con el nombre y la configuración anteriores.
La reparación de un solo nodo da como resultado una reimplementación con la opción de conservar los volúmenes de datos. Solo se elimina el volumen del sistema y se aprovisiona recientemente durante la implementación.
Importante
Asegúrese de que siempre tiene copias de seguridad para las cargas de trabajo y no se basa solo en la resistencia del sistema. Esto es especialmente crítico en escenarios de nodo único.
Configuración de resistencia
En esta versión, para una operación de nodo de reparación, no se realizan tareas específicas en los volúmenes de carga de trabajo que creó después de la implementación. En el caso de una operación de nodo de reparación, solo se restauran los volúmenes de infraestructura necesarios y los volúmenes de carga de trabajo se exponen como volúmenes compartidos de clúster (CSV).
Los demás volúmenes de carga de trabajo que creó después de que la implementación todavía se conservan y puede detectar estos volúmenes mediante la ejecución del Get-VirtualDisk
cmdlet . Deberá desbloquear manualmente el volumen (si el volumen tiene Habilitado BitLocker) y crear un CSV (si es necesario).
Requisitos de hardware
Al reparar un nodo, el sistema valida el hardware del nuevo nodo entrante y garantiza que el nodo cumpla los requisitos de hardware antes de agregarlo al sistema.
Componente | Comprobación de cumplimiento |
---|---|
CPU | Valide que el nuevo nodo tenga el mismo número de núcleos de CPU o más. Si los núcleos de CPU del nodo entrante no cumplen este requisito, se mostrará una advertencia. Sin embargo, se permite la operación. |
Memoria | Valide que el nuevo nodo tenga instalada la misma cantidad de memoria o más. Si la memoria del nodo entrante no cumple este requisito, se mostrará una advertencia. Sin embargo, se permite la operación. |
Unidades | Compruebe que el nuevo nodo tiene el mismo número de unidades de datos disponibles para Espacios de almacenamiento directo. Si el número de unidades del nodo entrante no cumple este requisito, se notifica un error y se bloquea la operación. |
Reemplazo de nodo
Puede reemplazar todo el nodo:
- Con un nuevo nodo que tiene un número de serie diferente en comparación con el nodo anterior.
- Con el nodo actual después de volver a crear la imagen.
Se admiten los siguientes escenarios durante el reemplazo del nodo:
Nodo | Disco | Compatible |
---|---|---|
Nuevo nodo | Discos nuevos | Sí |
Nuevo nodo | Discos actuales | Sí |
Nodo actual (reimaged) | Discos actuales con formato ** | No |
Nodo actual (reimaged) | Discos nuevos | Sí |
Nodo actual (reimaged) | Discos actuales | Sí |
**Los discos usados por Espacios de almacenamiento directo requieren una limpieza adecuada. El reformateo no es suficiente. Vea cómo limpiar unidades.
Importante
Si reemplaza un componente durante la reparación del nodo, no es necesario reemplazar ni restablecer unidades de datos. Si reemplaza una unidad o lo restablece, la unidad no se reconocerá una vez que el nodo se una al sistema.
Reemplazo de los componentes
En la instancia local de Azure, los componentes no intercambiables en caliente incluyen los siguientes elementos:
- Controlador de administración de placa base (BMC)/tarjeta de vídeo
- Controlador de disco/adaptador de bus host (HBA)/backplace
- Adaptador de red
- Unidad de procesamiento de gráficos
- Unidades de datos (unidades que no admiten intercambio directo, por ejemplo, tarjeta complementaria PCI-e)
Los pasos de reemplazo reales para componentes no intercambiables en caliente varían en función del proveedor de hardware del fabricante de equipos originales (OEM). Consulte la documentación del proveedor de OEM si se requiere una reparación de nodo para componentes no intercambiables en caliente.
Requisitos previos
Antes de reparar un nodo, debe asegurarse de que:
AzureStackLCMUser
está activo en Active Directory. Para obtener más información, consulte Preparación de Active Directory.- Ha iniciado sesión como
AzureStackLCMUser
u otro usuario con permisos equivalentes. - Las credenciales de no
AzureStackLCMUser
han cambiado.
Si es necesario, tome el nodo que ha identificado para reparar sin conexión. Siga los pasos descritos aquí:
Reparación de un nodo
En esta sección se describe cómo reparar un nodo mediante PowerShell, supervisar el estado de la Repair-Server
operación y solucionar problemas, si hay algún problema.
Asegúrese de que ha revisado los requisitos previos.
Siga estos pasos en el nodo que intenta reparar.
Instale el sistema operativo y los controladores necesarios. Siga los pasos descritos en Instalación del sistema operativo Azure Stack HCI, versión 23H2.
Nota:
Si ha implementado la instancia local de Azure mediante direcciones IP de almacenamiento personalizadas, debe asignar manualmente direcciones IP a los adaptadores de red de almacenamiento después de reparar el nodo.
Registre el nodo con Arc. Siga los pasos descritos en Registro con Arc y configuración de permisos.
Nota:
Debe usar los mismos parámetros que los nodos existentes para registrarse en Arc. Por ejemplo: Nombre del grupo de recursos, Región, Suscripción e Inquilino.
Asigne los permisos siguientes al nodo reparado:
- Rol de Administración de dispositivos local de Azure
- Usuario de secretos de Key Vault Para obtener más información, consulte Asignación de permisos al nodo.
Siga estos pasos en otro nodo que sea miembro de la misma instancia local de Azure.
Antes de agregar el nodo, asegúrese de obtener un token de autenticación actualizado. Ejecute el siguiente comando:
Update-AuthenticationToken
Si ejecuta una versión anterior a la 2405.3, debe ejecutar el siguiente comando para limpiar los archivos en conflicto:
Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
Inicie sesión en el nodo que ya es miembro del sistema, con las credenciales de usuario de dominio que proporcionó durante la implementación del sistema. Ejecute el siguiente comando para reparar el nodo entrante:
$Cred = Get-Credential Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
Nota:
El nombre del nodo debe ser el nombre netBIOS.
Anote el identificador de la operación como salida por el
Repair-Server
comando . Lo usará más adelante para supervisar el progreso de laRepair-Server
operación.
Supervisar el progreso de la operación
Para supervisar el progreso de la operación agregar nodo, siga estos pasos:
Ejecute el siguiente cmdlet y proporcione el identificador de operación del paso anterior.
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
Una vez completada la operación, el trabajo de reequilibrio de almacenamiento en segundo plano seguirá ejecutándose. Espere a que se complete el trabajo de reequilibrio de almacenamiento. Para comprobar el progreso de este trabajo de reequilibrio de almacenamiento, use el siguiente cmdlet:
Get-VirtualDisk|Get-StorageJob
Si el trabajo de reequilibrio de almacenamiento está completo, el cmdlet no devolverá una salida.
Escenarios de recuperación
Los siguientes escenarios de recuperación y los pasos de mitigación recomendados se tabulan para reparar un nodo:
Descripción del escenario | Mitigación | ¿Compatible? |
---|---|---|
Error en la operación del nodo de reparación. | Para completar la operación, investigue el error. Vuelva a ejecutar la operación con error mediante Add-Server -Rerun . |
Sí |
La operación de reparación del nodo se realizó correctamente parcialmente, pero tuvo que empezar con una instalación del sistema de operación nueva. | En este escenario, el orquestador (también conocido como Administrador de ciclo de vida) ya ha actualizado su almacén de conocimiento con el nuevo nodo. Use el escenario de nodo de reparación. | Sí |
Solución de problemas
Si experimenta errores o errores al reparar un nodo, puede capturar la salida de los errores en un archivo de registro.
Inicie sesión con las credenciales de usuario del dominio que proporcionó durante la implementación del sistema. Capture el problema en los archivos de registro.
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
Para volver a ejecutar la operación con errores, use el siguiente cmdlet:
Repair-Server -Rerun
Pasos siguientes
Obtenga más información sobre cómo agregar un nodo.