Problemen met azure Operator Nexus-server oplossen
In dit artikel wordt beschreven hoe u serverproblemen kunt oplossen met behulp van opnieuw opstarten, opnieuw maken en vervangen van acties op Azure Operator Nexus bare-metalmachines (BMM's). Mogelijk moet u deze acties op uw server uitvoeren om onderhoudsredenen, wat een korte onderbreking van specifieke BMM's veroorzaakt.
De tijd die nodig is om elk van deze acties te voltooien, is vergelijkbaar. Opnieuw opstarten is het snelst, terwijl het vervangen iets langer duurt. Alle drie de acties zijn eenvoudige en efficiënte methoden voor het oplossen van problemen.
Let op
Voer geen actie uit op beheerservers zonder eerst contact op te nemen met het ondersteuningspersoneel van Microsoft. Dit kan van invloed zijn op de integriteit van het Operator Nexus-cluster.
Vereisten
- Raak vertrouwd met de mogelijkheden waarnaar in dit artikel wordt verwezen door de BMM-acties te bekijken.
- Verzamel de volgende informatie:
- Naam van de beheerde resourcegroep voor de BMM
- Naam van de BMM waarvoor een levenscyclusbeheerbewerking is vereist
- Abonnements-id
Belangrijk
Storende opdrachtaanvragen voor een KCP-knooppunt (Kubernetes Control Plane) worden geweigerd als er een andere verstorende actieopdracht wordt uitgevoerd op een ander KCP-knooppunt of als het volledige KCP niet beschikbaar is.
Opnieuw opstarten, opnieuw opstarten en vervangen worden allemaal beschouwd als verstorende acties.
Deze controle wordt uitgevoerd om de integriteit van het Nexus-exemplaar te behouden en ervoor te zorgen dat meerdere KCP-knooppunten niet tegelijk omlaag gaan vanwege gelijktijdige verstorende acties. Als meerdere knooppunten omlaag gaan, wordt de drempelwaarde voor het quorum in orde van het Kubernetes-besturingsvlak verbroken.
De corrigerende actie identificeren
Bij het oplossen van problemen met een BMM voor fouten en het bepalen van de meest geschikte corrigerende actie, is het essentieel om inzicht te hebben in de beschikbare opties. Het opnieuw opstarten of opnieuw voltooien van een BMM kan zowel efficiënt als effectief zijn voor het oplossen van problemen of het herstellen van de software naar een bekende goede staat. In gevallen waarin een of meer hardwareonderdelen op de server mislukken, kan het nodig zijn om de BMM volledig te vervangen. In dit artikel vindt u een overzicht van de aanbevolen procedures voor elk van deze drie acties.
Voor het oplossen van technische problemen is een systematische aanpak vereist. Een effectieve methode is om te beginnen met de minst ingrijpende oplossing en zo nodig tot complexere en drastische maatregelen te werken.
De eerste stap bij het oplossen van problemen is het opnieuw opstarten van het apparaat of systeem. Opnieuw opstarten kan helpen bij het oplossen van tijdelijke fouten of fouten die het probleem kunnen veroorzaken.
Als opnieuw opstarten het probleem niet oplost, is de volgende stap het opnieuw voltooien van het apparaat of systeem.
Als het probleem niet wordt opgelost met het opnieuw voltooien van het probleem, is de laatste stap het vervangen van het defecte hardwareonderdeel. Hoewel vervanging een belangrijkere meting is, kan het nodig zijn als het probleem het gevolg is van een hardwarefout.
Houd er rekening mee dat deze probleemoplossingsmethoden mogelijk niet altijd effectief zijn en dat andere factoren in het spel mogelijk een andere benadering vereisen.
Problemen oplossen met een actie voor opnieuw opstarten
Het opnieuw opstarten van een BMM is een proces waarbij de server opnieuw wordt opgestart via een eenvoudige API-aanroep. Deze actie kan handig zijn voor het oplossen van problemen wanneer virtuele tenantmachines op de host niet reageren of anders vastlopen.
Het opnieuw opstarten is doorgaans het startpunt voor het oplossen van een probleem.
Met de volgende Azure CLI-opdracht wordt power-off
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine power-off \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Met de volgende Azure CLI-opdracht wordt start
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine start \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Met de volgende Azure CLI-opdracht wordt restart
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine restart \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Problemen oplossen met een nieuwe installatiekopieactie
Het opnieuw maken van een BMM is een proces dat u gebruikt om de installatiekopie opnieuw te implementeren op de besturingssysteemschijf, zonder dat dit van invloed is op de tenantgegevens. Met deze actie worden de stappen uitgevoerd om het cluster opnieuw te koppelen met dezelfde id's.
De reimageactie kan handig zijn voor het oplossen van problemen door het besturingssysteem te herstellen naar een bekende goede werkstatus. Veelvoorkomende oorzaken die kunnen worden opgelost via het opnieuw instellen, zijn herstel vanwege twijfel over hostintegriteit, vermoedelijke of bevestigde beveiligingsrisico's of schrijfactiviteit 'break glass'.
Een reimageactie is de best practice voor het laagste operationele risico om de integriteit van de BMM te waarborgen.
Als best practice moet u ervoor zorgen dat de werkbelastingen van de BMM worden leeggemaakt met behulp van de cordon-opdracht, met evacuate 'True', voordat u de opdracht reimage uitvoert.
Voer de volgende opdracht uit om te bepalen of er momenteel workloads worden uitgevoerd op een BMM:
Voor virtuele machines:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Voor Nexus Kubernetes-clusterknooppunten: (hiervoor moet u zich aanmelden bij het Nexus Kubernetes-cluster)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Met de volgende Azure CLI-opdracht wordt cordon
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Met de volgende Azure CLI-opdracht wordt reimage
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine reimage \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Met de volgende Azure CLI-opdracht wordt uncordon
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Problemen oplossen met een vervangingsactie
Servers bevatten veel fysieke onderdelen die een failover in de loop van de tijd kunnen uitvoeren. Het is belangrijk om te begrijpen welke fysieke reparaties BMM-vervanging vereisen en wanneer BMM-vervanging wordt aanbevolen.
Er wordt een hardwarevalidatieproces aangeroepen om de integriteit van de fysieke host te garanderen voordat de installatiekopie van het besturingssysteem wordt geïmplementeerd. Net als bij de reimage-actie worden de tenantgegevens niet gewijzigd tijdens de vervanging.
Belangrijk
Vanaf de GA API-versie 2024-07-01 wordt de RAID-controller opnieuw ingesteld tijdens het vervangen van BMM, waarbij alle gegevens van de virtuele schijven van de server worden verwijderd. BMC-waarschuwingen (Baseboard Management Controller) voor virtuele schijven die worden geactiveerd tijdens het vervangen van BMM, kunnen worden genegeerd, tenzij er extra waarschuwingen voor fysieke schijven en/of RAID-controllers zijn.
Als best practice geeft u eerst een cordon
opdracht uit om de bare-metalmachine uit de workloadplanning te verwijderen en vervolgens de BMM af te sluiten voorafgaand aan fysieke reparaties.
Met de volgende Azure CLI-opdracht wordt cordon
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Wanneer u een fysieke hot swappable voeding herstelt, is een vervangingsactie niet vereist omdat de BMM-host normaal blijft functioneren na de reparatie.
Wanneer u de volgende fysieke reparaties uitvoert, raden we een vervangingsactie aan, hoewel het niet nodig is om de BMM weer in gebruik te nemen:
- CPU
- Dual-In-Line Memory Module (DIMM)
- Ventilator
- Riser van uitbreidingsbord
- Transceiver
- Ethernet- of glasvezelkabelvervanging
Wanneer u de volgende fysieke reparaties uitvoert, is een vervangingsactie vereist om de BMM weer in gebruik te nemen:
- Backplane
- Systeembord
- SSD-schijf
- PERC/RAID-adapter
- Mellanox Network Interface Card (NIC)
- Ingesloten NIC van Broadcom
Nadat fysieke reparaties zijn voltooid, voert u een vervangingsactie uit.
Met de volgende Azure CLI-opdracht wordt replace
de opgegeven bareMetalMachineName gebruikt.
az networkcloud baremetalmachine replace \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUM> \
--subscription <subscriptionID>
Met de volgende Azure CLI-opdracht wordt de opgegeven bareMetalMachineName ongedaan gemaakt.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Samenvatting
Opnieuw opstarten, opnieuw opstarten en vervangen zijn effectieve methoden voor probleemoplossing die u kunt gebruiken om technische problemen op te lossen. Het is echter belangrijk om een systematische benadering te hebben en andere factoren te overwegen voordat u drastische maatregelen probeert uit te voeren. Meer informatie over de BMM-acties vindt u in het artikel BMM-acties .
Neem contact op met ondersteuning als u nog steeds vragen hebt. Zie Azure-ondersteuningsplannen voor meer informatie over ondersteuningsplannen.