Felsöka problem med Azure-operatörens Nexus-server

Artikel
12/18/2024

Den här artikeln beskriver hur du felsöker serverproblem med hjälp av åtgärder för att starta om, återskapa och ersätta på Azure Operator Nexus bare metal-datorer (BMM). Du kan behöva vidta dessa åtgärder på servern av underhållsskäl, vilket orsakar en kort störning av specifika BMM-datorer.

Den tid som krävs för att slutföra var och en av dessa åtgärder är liknande. Omstarten är snabbast, medan bytet tar lite längre tid. Alla tre åtgärderna är enkla och effektiva metoder för felsökning.

Varning

Utför inga åtgärder mot hanteringsservrar utan att först kontakta Microsofts supportpersonal. Detta kan påverka operatörens Nexus-klusters integritet.

Förutsättningar

Bekanta dig med de funktioner som anges i den här artikeln genom att granska BMM-åtgärderna.
Samla in följande information:
- Namnet på den hanterade resursgruppen för BMM
- Namnet på den BMM som kräver en livscykelhanteringsåtgärd
- Prenumerations-ID:t

Viktigt!

Störande kommandobegäranden mot en Kubernetes Control Plane-nod (KCP) avvisas om det finns ett annat störande åtgärdskommando som redan körs mot en annan KCP-nod eller om den fullständiga KCP-filen inte är tillgänglig.

Omstart, återimering och ersättning betraktas alla som störande åtgärder.

Den här kontrollen görs för att upprätthålla Nexus-instansens integritet och se till att flera KCP-noder inte går ned samtidigt på grund av samtidiga störande åtgärder. Om flera noder går ned bryter det det felfria kvorumtröskelvärdet för Kubernetes-kontrollplanet.

Identifiera den korrigerande åtgärden

När du felsöker en BMM för fel och fastställer den lämpligaste korrigerande åtgärden är det viktigt att du förstår de tillgängliga alternativen. Att starta om eller återskapa en BMM kan vara både effektivt och effektivt för att lösa problem eller återställa programvaran till ett känt och bra tillstånd. Om en eller flera maskinvarukomponenter misslyckas på servern kan det vara nödvändigt att ersätta BMM helt. Den här artikeln beskriver metodtipsen för var och en av dessa tre åtgärder.

Felsökning av tekniska problem kräver ett systematiskt tillvägagångssätt. En effektiv metod är att börja med den minst invasiva lösningen och arbeta dig upp till mer komplexa och drastiska åtgärder, om det behövs.

Det första steget i felsökningen är att försöka starta om enheten eller systemet. Omstart kan hjälpa till att rensa upp eventuella tillfälliga problem eller fel som kan orsaka problemet.

Om omstarten inte löser problemet är nästa steg att försöka återskapa enheten eller systemet.

Om återskapande inte löser problemet är det sista steget att ersätta den felaktiga maskinvarukomponenten. Även om ersättning är ett mer betydande mått kan det krävas om problemet beror på en maskinvarudefekt.

Tänk på att de här felsökningsmetoderna kanske inte alltid är effektiva och att andra faktorer i spelet kan kräva en annan metod.

Felsöka med en omstartsåtgärd

Att starta om en BMM är en process för att starta om servern via ett enkelt API-anrop. Den här åtgärden kan vara användbar för att felsöka problem när virtuella klientdatorer på värden inte svarar eller fastnar på annat sätt.

Omstarten är vanligtvis startpunkten för att åtgärda ett problem.

Följande Azure CLI-kommando är power-off det angivna bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Följande Azure CLI-kommando är start det angivna bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Följande Azure CLI-kommando är restart det angivna bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Felsöka med en återimeringsåtgärd

Att återskapa en BMM är en process som du använder för att distribuera om avbildningen på OS-disken, utan att påverka klientdata. Den här åtgärden kör stegen för att återansluta till klustret med samma identifierare.

Omimeringsåtgärden kan vara användbar för att felsöka problem genom att återställa operativsystemet till ett fungerande tillstånd. Vanliga orsaker som kan lösas genom återskapande är återställning på grund av tvivel om värdintegritet, misstänkt eller bekräftad säkerhetskompromiss eller skrivaktivitet för "break glass".

En återimeringsåtgärd är den bästa metoden för lägsta driftsrisk för att säkerställa BMM:s integritet.

Vi rekommenderar att du kontrollerar att BMM:s arbetsbelastningar töms med hjälp av kommandot cordon, med evakuera "True" innan du kör kommandot reimage.

Kör följande kommando för att identifiera om några arbetsbelastningar för närvarande körs på en BMM:

För virtuella datorer:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

För Nexus Kubernetes-klusternoder: (kräver inloggning i Nexus Kubernetes-klustret)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Följande Azure CLI-kommando är cordon det angivna bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Följande Azure CLI-kommando är reimage det angivna bareMetalMachineName.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Följande Azure CLI-kommando är uncordon det angivna bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Felsöka med en ersättningsåtgärd

Servrar innehåller många fysiska komponenter som kan redundansväxla över tid. Det är viktigt att förstå vilka fysiska reparationer som kräver BMM-ersättning och när BMM-ersättning rekommenderas.

En process för maskinvaruverifiering anropas för att säkerställa integriteten för den fysiska värden innan os-avbildningen distribueras. Precis som omimeringsåtgärden ändras inte klientdata under ersättningen.

Viktigt!

Från och med 2024-07-01 GA API-versionen återställs RAID-kontrollanten under BMM-bytet och rensar alla data från serverns virtuella diskar. Aviseringar om virtuella BMC-diskar (Baseboard Management Controller) som utlöses under BMM-ersättning kan ignoreras om det inte finns ytterligare aviseringar om fysiska diskar och/eller RAID-styrenheter.

Vi rekommenderar att du först utfärdar ett cordon kommando för att ta bort datorn utan operativsystem från schemaläggningen av arbetsbelastningen och sedan stänga av BMM före fysiska reparationer.

Följande Azure CLI-kommando är cordon det angivna bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

När du utför en fysisk snabbväxlingsbar strömförsörjningsreparation krävs ingen ersättningsåtgärd eftersom BMM-värden fortsätter att fungera normalt efter reparationen.

När du utför följande fysiska reparationer rekommenderar vi en ersättningsåtgärd, men det är inte nödvändigt att ta BMM i bruk igen:

CPU
Modul med dubbelt infogat minne (DIMM)
Fläkt
Expansionskortshöjning
Sändtagare
Byte av Ethernet- eller fiberkabel

När du utför följande fysiska reparationer krävs en ersättningsåtgärd för att BMM ska tas i bruk igen:

Bakplan
Systemkort
SSD-disk
PERC/RAID-kort
Mellanox Network Interface Card (NIC)
Broadcom embedded NIC

När fysiska reparationer har slutförts utför du en ersättningsåtgärd.

Följande Azure CLI-kommando är replace det angivna bareMetalMachineName.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

Följande Azure CLI-kommando tar bort det angivna bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Sammanfattning

Att starta om, återskapa och ersätta är effektiva felsökningsmetoder som du kan använda för att lösa tekniska problem. Det är dock viktigt att ha ett systematiskt tillvägagångssätt och att överväga andra faktorer innan du provar några drastiska åtgärder. Mer information om BMM-åtgärderna finns i artikeln BMM-åtgärder .

Kontakta supporten om du fortfarande har frågor. Mer information om supportplaner finns i Azure-supportplaner.

Dela via