Solución de problemas del servidor de Azure Operator Nexus

Artículo
12/14/2024

En este artículo se describe cómo solucionar problemas de servidor mediante el reinicio, el restablecimiento de imagen inicial y las acciones de reemplazo en máquinas sin sistema operativo (BMM) de Azure Operator Nexus. Es posible que tenga que realizar estas acciones en el servidor por motivos de mantenimiento, lo que provoca una breve interrupción de las BMM específicas.

El tiempo necesario para completar cada una de estas acciones es similar. El reinicio es el más rápido, mientras que el reemplazo tarda un poco más. Las tres acciones son métodos sencillos y eficaces para solucionar problemas.

Precaución

No realice ninguna acción en los servidores de administración sin consultar primero con el personal de soporte técnico de Microsoft. Si lo hace, podría afectar a la integridad del clúster de Operator Nexus.

Requisitos previos

Familiarícese con las funcionalidades a las que se hace referencia en este artículo revisando las acciones de BMM.
Recopile la información siguiente:
- Nombre del grupo de recursos administrados para el BMM
- Nombre del BMM que requiere una operación de administración del ciclo de vida
- Id. de suscripción

Importante

Las solicitudes de comandos disruptivas en un nodo del plano de control de Kubernetes (KCP) se rechazan si hay otro comando de acción perjudicial que ya se ejecuta en otro nodo KCP o si el KCP completo no está disponible.

El reinicio, el restablecimiento de imagen inicial y el reemplazo se consideran acciones perjudiciales.

Esta comprobación se realiza para mantener la integridad de la instancia de Nexus y asegurarse de que no dejan de funcionar varios nodos KCP a la vez debido a acciones disruptivas simultáneas. Si se bloquean varios nodos, se interrumpirá el umbral de cuórum correcto del plano de control de Kubernetes.

Identificación de la acción correctiva

Al solucionar los problemas de un BMM y determinar la mejor acción correctiva, es importante saber cuáles son las opciones disponibles. Tanto reiniciar como restablecer la imagen de un BMM pueden ser acciones eficaces para resolver problemas o restaurar el software a un estado correcto conocido. En los casos en los que se produzca un error en uno o varios componentes de hardware del servidor, es posible que haya que reemplazar todo el BMM. En este artículo se describen los procedimientos recomendados para cada una de estas tres acciones.

La solución de problemas técnicos requiere un enfoque sistemático. Un método eficaz consiste en comenzar con la solución menos invasiva e ir subiendo hasta medidas más complejas y drásticas, en caso de que sea necesario.

El primer paso para solucionar problemas es intentar reiniciar el dispositivo o el sistema. Reiniciar puede ayudar a borrar cualquier problema o error temporal que podrían estar causando el problema.

Si el reinicio no resuelve el problema, el siguiente paso es probar a restablecer la imagen del dispositivo o sistema.

Si el restablecimiento de la imagen no resuelve el problema, el paso final es reemplazar el componente de hardware defectuoso. Aunque el reemplazo es una medida más importante, puede ser necesaria si el problema se deriva de un defecto de hardware.

Tenga en cuenta que estos métodos de solución de problemas podrían no ser siempre eficaces y otros factores en juego podrían requerir un enfoque diferente.

Solución de problemas con una acción de reinicio

Reiniciar un BMM es un proceso de reinicio del servidor a través de una llamada API simple. Esta acción puede ser útil para solucionar problemas cuando las máquinas virtuales de inquilino del host no responden o están bloqueadas de otro modo.

El reinicio suele ser el punto de partida para mitigar un problema.

El siguiente comando de la CLI de Azure será power-off el bareMetalMachineName especificado.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure será start el bareMetalMachineName especificado.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure será restart el bareMetalMachineName especificado.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solución de problemas con una acción de restablecimiento de imagen inicial

Restablecer la imagen inicial de una BMM es un proceso que se usa para volver a implementar la imagen en el disco del sistema operativo, sin afectar a los datos del inquilino. Esta acción ejecuta los pasos para volver a unir el clúster con los mismos identificadores.

La acción de restablecimiento de imagen inicial puede ser útil para solucionar problemas restaurando el sistema operativo a un estado de funcionamiento correcto conocido. Entre las causas comunes que se pueden resolver a través del restablecimiento de imagen inicial se incluyen la recuperación debido a la duda de la integridad del host, el riesgo de seguridad sospechoso o confirmado, o actividad de escritura de "emergencia".

Una acción de restablecimiento de imagen inicial es el procedimiento recomendado para el riesgo operativo más bajo a fin de garantizar la integridad del BMM.

Como procedimiento recomendado, asegúrese de que las cargas de trabajo del BMM se purgan mediante el comando cordon, con la evacuación de "True", antes de ejecutar el comando reimage.

Para identificar si alguna carga de trabajo se está ejecutando actualmente en un BMM, ejecute el siguiente comando:

Para Virtual Machines:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Para los nodos de clúster de Nexus Kubernetes: (requiere el inicio de sesión en el clúster de Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

El siguiente comando de la CLI de Azure será cordon el bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure será reimage el bareMetalMachineName especificado.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure será uncordon el bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solución de problemas con una acción de reemplazo

Los servidores contienen muchos componentes físicos que pueden conmutar por error con el tiempo. Es importante saber qué reparaciones físicas requieren el reemplazo de BMM y en qué circunstancias simplemente se recomienda el reemplazo de la BMM.

Se invoca un proceso de validación de hardware para garantizar la integridad del host físico antes de implementar la imagen del sistema operativo. Al igual que la acción de restablecimiento de imagen inicial, los datos del inquilino no se modifican durante el reemplazo.

Importante

A partir de la versión de API de disponibilidad general 2024-07-01, el controlador RAID se restablece durante la sustitución de BMM, lo que borra todos los datos de los discos virtuales del servidor. Las alertas de disco virtual del Controlador de administración de placa base (BMC) desencadenadas durante la sustitución de BMM se pueden omitir a menos que haya alertas de discos físicos y/o controladores RAID adicionales.

Como procedimiento recomendado, primero emita un comando cordon para quitar la máquina sin sistema operativo de la programación de cargas de trabajo y, a continuación, apague el BMM antes de las reparaciones físicas.

El siguiente comando de la CLI de Azure será cordon el bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Al realizar una reparación de una fuente de alimentación física intercambiable en caliente, no se requiere una acción de reemplazo porque el host BMM seguirá funcionando normalmente después de la reparación.

Al realizar las siguientes reparaciones físicas, se recomienda una acción de reemplazo, aunque no es necesario devolver el BMM al servicio:

CPU
Módulo de memoria en línea dual (DIMM)
Ventilador
Aumento de placa de expansión
Transceptor
Reemplazo de cable ethernet o fibra

Al realizar las siguientes reparaciones físicas, se requiere una acción de reemplazo para devolver el BMM al servicio:

Backplane
Placa del sistema
Disco SSD
Adaptador PERC/RAID
Tarjeta de interfaz de red (NIC) de Mellanox
NIC insertada de Broadcom

Una vez completadas las reparaciones físicas, realice una acción de reemplazo.

El siguiente comando de la CLI de Azure será replace el bareMetalMachineName especificado.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure desacordonará el bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Resumen

El reinicio, el restablecimiento de imagen inicial y el reemplazo son métodos de solución de problemas eficaces que puede usar para solucionar problemas técnicos. Sin embargo, es importante tener un enfoque sistemático y tener en cuenta otros factores antes de probar cualquier medida drástica. Puede encontrar más detalles sobre las acciones de BMM en el artículo Acciones de BMM.

Si aún tiene alguna pregunta, póngase en contacto con soporte técnico. Para obtener más información sobre los planes de soporte técnico, vea Planes de Soporte técnico de Azure.

Compartir a través de