Solucionar problemas do servidor Azure Operator Nexus

Artigo
12/11/2024

Este artigo descreve como solucionar problemas de servidor usando ações de reiniciar, recriar imagens e substituir em BMMs (máquinas bare metal) do Azure Operator Nexus. Talvez seja necessário executar essas ações no servidor por motivos de manutenção, o que causa uma breve interrupção em BMMs específicos.

O tempo necessário para concluir cada uma dessas ações é semelhante. A reinicialização é a mais rápida, enquanto a substituição leva um pouco mais de tempo. Todas as três ações são métodos simples e eficientes para a solução de problemas.

Atenção

Não execute nenhuma ação contra servidores de gerenciamento sem consultar primeiro a equipe de suporte da Microsoft. Isso pode afetar a integridade do Operator Nexus Cluster.

Pré-requisitos

Familiarize-se com os recursos mencionados neste artigo revisando as ações do BMM.
Reúna as seguintes informações:
- Nome do grupo de recursos gerenciados para o BMM
- Nome do BMM que requer uma operação de gerenciamento do ciclo de vida
- ID de Subscrição

Importante

As solicitações de comando com interrupções em um nó KCP (Kubernetes Control Plane) são rejeitadas se houver outro comando de ação disruptivo já em execução em outro nó KCP ou se o KCP completo não estiver disponível.

Reiniciar, recriar imagens e substituir são ações disruptivas.

Essa verificação é feita para manter a integridade da instância do Nexus e garantir que vários nós KCP não caiam ao mesmo tempo devido a ações disruptivas simultâneas. Se vários nós caírem, ele quebrará o limite de quorum saudável do Plano de Controle do Kubernetes.

Identificar a ação corretiva

Ao solucionar problemas de um BMM para falhas e determinar a ação corretiva mais apropriada, é essencial entender as opções disponíveis. Reiniciar ou criar novas imagens de um BMM pode ser eficiente e eficaz para resolver problemas ou restaurar o software para um estado em boas condições. Nos casos em que um ou mais componentes de hardware falham no servidor, pode ser necessário substituir totalmente o BMM. Este artigo descreve as melhores práticas para cada uma dessas três ações.

A resolução de problemas técnicos requer uma abordagem sistemática. Um método eficaz é começar com a solução menos invasiva e trabalhar até medidas mais complexas e drásticas, se necessário.

O primeiro passo na solução de problemas é tentar reiniciar o dispositivo ou sistema. A reinicialização pode ajudar a eliminar quaisquer falhas ou erros temporários que possam estar a causar o problema.

Se reiniciar não resolver o problema, o próximo passo é tentar recriar a imagem do dispositivo ou sistema.

Se a recriação de imagens não resolver o problema, a etapa final é substituir o componente de hardware defeituoso. Embora a substituição seja uma medida mais significativa, ela pode ser necessária se o problema decorrer de um defeito de hardware.

Tenha em mente que esses métodos de solução de problemas nem sempre são eficazes, e outros fatores em jogo podem exigir uma abordagem diferente.

Solucionar problemas com uma ação de reinicialização

Reiniciar um BMM é um processo de reiniciar o servidor através de uma simples chamada de API. Essa ação pode ser útil para solucionar problemas quando as máquinas virtuais do locatário no host não respondem ou estão presas.

A reinicialização normalmente é o ponto de partida para mitigar um problema.

O comando da CLI do Azure a seguir será power-off o bareMetalMachineName especificado.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será start o bareMetalMachineName especificado.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será restart o bareMetalMachineName especificado.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solucionar problemas com uma ação de recriação de imagem

A recriação de imagens de um BMM é um processo que você usa para reimplantar a imagem no disco do sistema operacional, sem afetar os dados do locatário. Esta ação executa as etapas para reingressar no cluster com os mesmos identificadores.

A ação de recriação de imagem pode ser útil para solucionar problemas, restaurando o sistema operacional para um estado de funcionamento em boas condições. As causas comuns que podem ser resolvidas por meio da recriação de imagens incluem recuperação devido a dúvidas sobre a integridade do host, comprometimento de segurança suspeito ou confirmado ou atividade de gravação de "quebra de vidro".

Uma ação de reimagem é a melhor prática para o menor risco operacional para garantir a integridade do BMM.

Como prática recomendada, certifique-se de que as cargas de trabalho do BMM sejam drenadas usando o comando cordon, com evacuate "True", antes de executar o comando reimage.

Para identificar se alguma carga de trabalho está atualmente em execução em um BMM, execute o seguinte comando:

Para máquinas virtuais:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Para nós de cluster do Nexus Kubernetes: (requer login no cluster do Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

O comando da CLI do Azure a seguir será cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será reimage o bareMetalMachineName especificado.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será uncordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solucionar problemas com uma ação de substituição

Os servidores contêm muitos componentes físicos que podem falhar ao longo do tempo. É importante entender quais reparos físicos exigem a substituição do BMM e quando a substituição do BMM é recomendada.

Um processo de validação de hardware é invocado para garantir a integridade do host físico antes da implantação da imagem do sistema operacional. Assim como a ação de reimagem, os dados do locatário não são modificados durante a substituição.

Importante

A partir da versão 2024-07-01 da API GA, o controlador RAID é redefinido durante a substituição do BMM, limpando todos os dados dos discos virtuais do servidor. Os alertas de disco virtual do Baseboard Management Controller (BMC) acionados durante a substituição do BMM podem ser ignorados, a menos que haja alertas adicionais de disco físico e/ou controladores RAID.

Como prática recomendada, primeiro emita um cordon comando para remover a máquina bare metal do agendamento da carga de trabalho e, em seguida, desligue o BMM antes dos reparos físicos.

O comando da CLI do Azure a seguir será cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Quando você está executando um reparo físico da fonte de alimentação substituível a quente, uma ação de substituição não é necessária porque o host BMM continuará a funcionar normalmente após o reparo.

Quando você estiver executando os seguintes reparos físicos, recomendamos uma ação de substituição, embora não seja necessário colocar o BMM de volta em serviço:

CPU
Módulo de memória em linha duplo (DIMM)
Ventilador
Riser da placa de expansão
Transceptor
Substituição de cabos Ethernet ou fibra

Quando você estiver executando os seguintes reparos físicos, uma ação de substituição é necessária para colocar o BMM de volta em serviço:

Backplane
Placa de sistema
Disco SSD
Adaptador PERC/RAID
Placa de interface de rede Mellanox (NIC)
NIC incorporada Broadcom

Após a conclusão dos reparos físicos, execute uma ação de substituição.

O comando da CLI do Azure a seguir será replace o bareMetalMachineName especificado.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir desconectará o bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Resumo

Reiniciar, criar imagens e substituir são métodos de solução de problemas eficazes que você pode usar para resolver problemas técnicos. No entanto, é importante ter uma abordagem sistemática e considerar outros fatores antes de tentar qualquer medida drástica. Mais detalhes sobre as ações do BMM podem ser encontrados no artigo sobre ações do BMM.

Se você ainda tiver dúvidas, entre em contato com o suporte. Para obter mais informações sobre planos de suporte, consulte Planos de suporte do Azure.

Partilhar via