Solucionar problemas do servidor Nexus do Operador do Azure

Artigo
12/14/2024

Este artigo descreve como solucionar problemas de servidor usando ações de reiniciar, refazer imagem e substituir em BMMs (computadores bare-metal) do Nexus do Operador do Azure. Talvez seja necessário executar essas ações em seu servidor por motivos de manutenção, o que causa uma breve interrupção em BMMs específicos.

O tempo necessário para concluir cada uma dessas ações é semelhante. A reinicialização é a mais rápida, enquanto a substituição leva um pouco mais de tempo. Todas as três ações são métodos simples e eficientes para a solução de problemas.

Cuidado

Não execute nenhuma ação nos servidores de gerenciamento sem antes consultar a equipe de suporte da Microsoft. Isso pode afetar a integridade do cluster do Nexus do Operador.

Pré-requisitos

Familiarize-se com os recursos mencionados neste artigo revisando as ações do BMM.
Reúna as seguintes informações:
- Nome do grupo de recursos gerenciados para o BMM
- Nome do BMM que requer uma operação de gerenciamento de ciclo de vida
- ID da assinatura

Importante

As solicitações de comando disruptivas em um nó do KCP (plano de controle do Kubernetes) serão rejeitadas se houver outro comando de ação disruptiva já em execução em outro nó do KCP ou se o KCP completo não estiver disponível.

Reiniciar, refazer imagem e substituir são consideradas ações de interrupção.

Essa verificação é feita para manter a integridade da instância do Nexus e garantir que vários nós KCP não caiam de uma só vez devido a ações de interrupção simultâneas. Se vários nós ficarem inoperantes, isso quebrará o limite de quórum íntegro do plano de controle do Kubernetes.

Identificar a ação corretiva

Ao solucionar problemas de um BMM para falhas e determinar a ação corretiva mais apropriada, é essencial entender as opções disponíveis. Reiniciar ou reimaginar um BMM pode ser eficiente e eficaz para resolver problemas ou restaurar o software para um estado de bom conhecimento. Nos casos em que um ou mais componentes de hardware falham no servidor, pode ser necessário substituir totalmente o BMM. Este artigo descreve as práticas recomendadas para cada uma dessas três ações.

A solução de problemas técnicos requer uma abordagem sistemática. Um método eficaz é começar com a solução menos invasiva e trabalhar até medidas mais complexas e drásticas, se necessário.

A primeira etapa na solução de problemas é tentar reiniciar o dispositivo ou o sistema. A reinicialização pode ajudar a limpar quaisquer falhas temporárias ou erros que possam estar causando o problema.

Se a reinicialização não resolver o problema, a próxima etapa é tentar reimaginar o dispositivo ou o sistema.

Se a reimaginação não resolver o problema, a etapa final será substituir o componente de hardware defeituoso. Embora a substituição seja uma medida mais significativa, pode ser necessária se o problema decorrer de um defeito de hardware.

Lembre-se de que esses métodos de solução de problemas podem nem sempre ser eficazes e que outros fatores em jogo podem exigir uma abordagem diferente.

Solucionar problemas com uma ação de reiniciar

Reiniciar um BMM é um processo de reinicialização do servidor por meio de uma simples chamada de API. Essa ação pode ser útil para solucionar problemas quando as máquinas virtuais do locatário no host não estão respondendo ou estão travadas.

Normalmente, reiniciar é o ponto de partida para mitigar um problema.

O seguinte comando da CLI do Azure irá power-off o bareMetalMachineName especificado.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O seguinte comando da CLI do Azure irá start o bareMetalMachineName especificado.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O seguinte comando da CLI do Azure irá restart o bareMetalMachineName especificado.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solucionar problemas com uma ação de refazer imagem

Refazer a imagem de um BMM é um processo que você usa para reimplantar a imagem no disco do sistema operacional, sem afetar os dados do locatário. Essa ação executa as etapas para reingressar no cluster com os mesmos identificadores.

A ação de refazer imagem pode ser útil para solucionar problemas, restaurando o sistema operacional para um estado de funcionamento reconhecidamente bom. As causas comuns que podem ser resolvidas ao refazer a imagem incluem a recuperação devido a dúvidas sobre a integridade do host, comprometimento de segurança suspeito ou confirmado ou atividade de gravação "break glass".

Uma ação de refazer imagem é a melhor prática para o menor risco operacional e para garantir a integridade do BMM.

Como prática recomendada, verifique se as cargas de trabalho do BMM são drenadas usando o comando cordon, com a evacuação "True", antes de executar o comando reimage.

Para identificar se alguma carga de trabalho está em execução no momento em um BMM, execute o seguinte comando:

Para Máquinas Virtuais:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Para nós de cluster do Nexus Kubernetes: (requer fazer logon no cluster do Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

O seguinte comando da CLI do Azure irá cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O seguinte comando da CLI do Azure irá reimage o bareMetalMachineName especificado.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O seguinte comando da CLI do Azure irá uncordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solucionar problemas com uma ação de substituir

Os servidores contêm muitos componentes físicos que podem falhar com o tempo. É importante entender quais reparos físicos exigem a substituição do BMM e quando a substituição do BMM é recomendada.

Um processo de validação de hardware é invocado para garantir a integridade do host físico antes da implantação da imagem do sistema operacional. Assim como a ação de refazer imagem, os dados do locatário não são modificados durante a substituição.

Importante

A partir da versão GA da API 2024-07-01, o controlador RAID é redefinido durante a substituição do BMM, apagando todos os dados dos discos virtuais do servidor. Os alertas de disco virtual do BMC (Controlador de Gerenciamento de Placa-base) acionados durante a substituição do BMM podem ser ignorados, a menos que haja alertas adicionais de disco físico e/ou de controladores RAID.

Como melhor prática, primeiro emita um comando cordon para remover o computador bare-metal do agendamento da carga de trabalho e, em seguida, desligue o BMM antes dos reparos físicos.

O seguinte comando da CLI do Azure irá cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Quando você estiver executando um reparo físico de fonte de alimentação intercambiável, uma ação de substituição não é necessária porque o host do BMM continuará funcionando normalmente após o reparo.

Ao executar os seguintes reparos físicos, recomendamos uma ação de substituição, embora não seja necessário colocar o BMM de volta ao serviço:

CPU
DIMM (Dual In-Line Memory Module)
Ventoinha
Placa de expansão riser
Transceptor
Substituição do cabo Ethernet ou de fibra

Quando você estiver executando os seguintes reparos físicos, uma ação de substituição será necessária para colocar o BMM de volta ao serviço:

Backplane
Placa do sistema
Disco SSD
Adaptador PERC/RAID
NIC (placa de interface de rede virtual) Mellanox
NIC incorporada da Broadcom

Depois que os reparos físicos forem concluídos, execute uma ação de substituição.

O seguinte comando da CLI do Azure irá replace o bareMetalMachineName especificado.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir irá liberar o registro do bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Resumo

Reiniciar, refazer imagem e substituir são métodos eficazes de solução de problemas que você pode usar para resolver problemas técnicos. Entretanto, é importante ter uma abordagem sistemática e considerar outros fatores antes de tentar qualquer medida drástica. Mais detalhes sobre as ações do BMM podem ser encontrados no artigo Ações do BMM.

Se você ainda tiver dúvidas, entre em contato com o suporte. Para obter mais informações sobre planos de suporte, veja Planos de Suporte do Azure.

Compartilhar via