Risolvere i problemi del server Nexus dell'operatore di Azure
Questo articolo descrive come risolvere i problemi del server usando le azioni di riavvio, ricreazione dell'immagine e sostituzione nei computer bare metal Nexus dell'operatore di Azure. Potrebbe essere necessario eseguire queste azioni sul server per motivi di manutenzione, causando un'interruzione breve a specifici sistemi di gestione bare metal.
Il tempo necessario per completare ognuna di queste azioni è simile. Il riavvio è il più veloce, mentre la sostituzione richiede leggermente più tempo. Tutte e tre le azioni sono metodi semplici ed efficienti per la risoluzione dei problemi.
Attenzione
Non eseguire alcuna azione sui server di gestione senza prima consultare il personale di supporto Microsoft. Questo potrebbe influire sull'integrità del cluster Operator Nexus.
Prerequisiti
- Acquisire familiarità con le funzionalità a cui si fa riferimento in questo articolo esaminando le azioni BMM.
- Raccogliere le informazioni seguenti:
- Nome del gruppo di risorse gestite per BMM
- Nome di BMM che richiede un'operazione di gestione del ciclo di vita
- ID sottoscrizione
Importante
Le richieste di comando di interruzione su un nodo KCP (piano di controllo Kubernetes) vengono rifiutate se è già in esecuzione un altro comando di azione di interruzione su un altro nodo KCP o se il KCP completo non è disponibile.
Il riavvio, la ricreazione dell'immagine e la sostituzione sono tutte azioni di arresto improvviso.
Questo controllo viene eseguito per mantenere l'integrità dell'istanza Nexus e assicurarsi che più nodi KCP non si arrestino contemporaneamente a causa di azioni di interruzione simultanee. Se più nodi vengono disattivati, la soglia del quorum integro del piano di controllo Kubernetes verrà interrotta.
Identificare l'azione correttiva
Quando si risolve un errore BMM per individuare gli errori e determinare l'azione correttiva più appropriata, è essenziale comprendere le opzioni disponibili. Il riavvio o la ricreazione di un BMM possono essere efficienti ed efficaci per risolvere i problemi o ripristinare il software in uno stato valido noto. Nei casi in cui uno o più componenti hardware non riescono nel server, potrebbe essere necessario sostituire completamente BMM. Questo articolo illustra le procedure consigliate per ognuna di queste tre azioni.
La risoluzione dei problemi tecnici richiede un approccio sistematico. Un metodo efficace consiste nell'iniziare con la soluzione meno invasiva e lavorare fino a misure più complesse e drastiche, se necessario.
Il primo passaggio per la risoluzione dei problemi consiste nel provare a riavviare il dispositivo o il sistema. Il riavvio può aiutare a cancellare eventuali errori o errori temporanei che potrebbero causare il problema.
Se il riavvio non risolve il problema, il passaggio successivo consiste nel provare a riprodurre il dispositivo o il sistema.
Se il reimaging non risolve il problema, il passaggio finale consiste nel sostituire il componente hardware difettoso. Anche se la sostituzione è una misura più significativa, può essere necessaria se il problema deriva da un difetto hardware.
Tenere presente che questi metodi di risoluzione dei problemi potrebbero non essere sempre efficaci e altri fattori in gioco potrebbero richiedere un approccio diverso.
Risolvere i problemi relativi a un'azione di riavvio
Il riavvio di un BMM è un processo di riavvio del server tramite una semplice chiamata API. Questa azione può essere utile per la risoluzione dei problemi quando le macchine virtuali tenant nell'host non sono reattive o sono altrimenti bloccate.
Il riavvio è in genere il punto di partenza per mitigare un problema.
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare power-off
bareMetalMachineName.
az networkcloud baremetalmachine power-off \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare start
bareMetalMachineName.
az networkcloud baremetalmachine start \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare restart
bareMetalMachineName.
az networkcloud baremetalmachine restart \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Risolvere i problemi con un'azione di ricreazione dell'immagine
La ricreazione di un BMM è un processo usato per ridistribuire l'immagine sul disco del sistema operativo, senza influire sui dati del tenant. Questa azione esegue i passaggi per la ricongiuzione del cluster con gli stessi identificatori.
L'azione di ricreazione dell'immagine può essere utile per la risoluzione dei problemi ripristinando il sistema operativo in uno stato di lavoro valido noto. Le cause comuni che possono essere risolte tramite la ricreazione dell'immagini includono il ripristino a causa di dubbi dell'integrità dell'host, sospetta o confermata compromissione della sicurezza o attività di scrittura "break glass".
Un'azione di ricreazione dell'immagine è la procedura consigliata per il rischio operativo più basso per garantire l'integrità di BMM.
Come procedura consigliata, assicurarsi che i carichi di lavoro di BMM vengano svuotati usando il comando cordone, con evacuare "True", prima di eseguire il comando reimage.
Per identificare se i carichi di lavoro sono attualmente in esecuzione in un BMM, eseguire il comando seguente:
Per le macchine virtuali:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Per i nodi del cluster Nexus Kubernetes: (richiede l'accesso al cluster Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare cordon
bareMetalMachineName.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare reimage
bareMetalMachineName.
az networkcloud baremetalmachine reimage \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare uncordon
bareMetalMachineName.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Risolvere i problemi relativi a un'azione di sostituzione
I server contengono molti componenti fisici che possono eseguire il failover nel tempo. È importante comprendere quali riparazioni fisiche richiedono la sostituzione BMM e quando è consigliata la sostituzione BMM.
Viene richiamato un processo di convalida hardware per garantire l'integrità dell'host fisico prima della distribuzione dell'immagine del sistema operativo. Analogamente all'azione di ricreazione dell'immagine, i dati del tenant non verranno modificati durante la sostituzione.
Importante
A partire dalla versione dell'API GA 2024-07-01, il controller RAID viene reimpostato durante la sostituzione BMM, rimuovendo tutti i dati dai dischi virtuali del server. Gli avvisi del disco virtuale BMC (Baseboard Management Controller) attivati durante la sostituzione BMM possono essere ignorati a meno che non siano presenti avvisi aggiuntivi relativi a dischi fisici e/o controller RAID.
Come procedura consigliata, eseguire prima un cordon
comando per rimuovere la macchina bare metal dalla pianificazione del carico di lavoro e quindi arrestare BMM in anticipo delle riparazioni fisiche.
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare cordon
bareMetalMachineName.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Quando si esegue una riparazione fisica dell'alimentatore a caldo scambiabile, non è necessaria un'azione di sostituzione perché l'host BMM continuerà a funzionare normalmente dopo il ripristino.
Quando si eseguono le riparazioni fisiche seguenti, è consigliabile eseguire un'azione di sostituzione, anche se non è necessario riportare il BMM nel servizio:
- CPU
- Dual In-Line Memory Module (DIMM)
- Ventilatore
- Aumento della scheda di espansione
- Ricetrasmettitore
- Sostituzione del cavo Ethernet o fiber
Quando si eseguono le riparazioni fisiche seguenti, è necessaria un'azione di sostituzione per ripristinare il servizio BMM:
- Backplane
- Scheda madre
- Disco SSD
- Adattatore PERC/RAID
- Scheda di interfaccia di rete Mellanox
- Scheda di interfaccia di rete incorporata Broadcom
Al termine delle riparazioni fisiche, eseguire un'azione di sostituzione.
Il comando seguente dell'interfaccia della riga di comando di Azure consentirà di specificare replace
bareMetalMachineName.
az networkcloud baremetalmachine replace \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUM> \
--subscription <subscriptionID>
Il comando seguente dell'interfaccia della riga di comando di Azure annulla il record bareMetalMachineName specificato.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Riepilogo
Il riavvio, la ricreazione e la sostituzione sono metodi efficaci per la risoluzione dei problemi che è possibile usare per risolvere i problemi tecnici. Tuttavia, è importante avere un approccio sistematico e prendere in considerazione altri fattori prima di provare qualsiasi misura drastica. Altre informazioni sulle azioni BMM sono disponibili nell'articolo Azioni BMM.
In caso di domande, contattare il supporto tecnico. Per altre informazioni sui piani di supporto, vedere Piani di supporto di Azure.