Dela via


Felsöka BMM-etablering i ett Azure Operator Nexus-kluster

Som en del av en klusterdistributionsåtgärd etableras datorer utan operativsystem (BMM) med roller som krävs för att delta i klustret. Det här dokumentet stöder felsökning för vanliga etableringsproblem med hjälp av Azure CLI, Azure Portal och serverbaskortshanteringsstyrenheten (BMC). För Azure Operator Nexus-plattformen använder den underliggande servermaskinvaran integrerad Dell-fjärråtkomstkontrollant (iDRAC) som BMC. Etableringen använder PXE-gränssnittet (Preboot eXecution Environment) för att läsa in operativsystemet (OS) på BMM.

Förutsättningar

  1. Installera den senaste versionen av lämpliga CLI-tillägg.
  2. Samla in följande information:
    • Prenumerations-ID (SUBSCRIPTION)
    • Klusternamn (CLUSTER)
    • Resursgrupp (CLUSTER_RG)
    • Hanterad resursgrupp (CLUSTER_MRG)
  3. Begär prenumerationsåtkomst för att köra Azure Operator Nexus-nätverksinfrastrukturen (NF) och cli-tilläggskommandona för nätverksmoln.
  4. Logga in på Azure CLI och välj den prenumeration där klustret distribueras.

BMM-roller

För en specifik version krävs roller för att hantera och driva det underliggande Kubernetes-klustret.

Följande roller tilldelas till BMM-resurser (se referensen för BMM-roller):

  • Kontrollplan: BMM som ansvarar för att köra Kubernetes kontrollplansagenter för klustret.
  • Hanteringsplan: BMM som ansvarar för att köra plattformsagenterna, inklusive styrenheter och tillägg.
  • Beräkningsplan: BMM som ansvarar för att köra faktiska klientarbetsbelastningar, inklusive Kubernetes-kluster och virtuella datorer.

Visa en lista över BMM-status

Följande kommando visar en lista över alla bareMetalMachineName resurser i den hanterade resursgruppen med enkel status:

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

Processen STATUS går igenom de faser som definieras i följande tabell i BMM-etableringsprocessen (se BMM-status i Azure Operator Nexus-beräkningsbegrepp):

Fas Åtgärder
Registering Verifierar BMC-anslutningen/BMC-autentiseringsuppgifterna och lägger till BMM i etableringstjänsten.
Preparing Startar om BMM, återställer BMC och verifierar energispartillståndet.
Inspecting Uppdaterar inbyggd programvara, tillämpar BIOS-inställningar och konfigurerar lagring.
Available Anger att BMM är redo att installera operativsystemet.
Provisioning Anger att OS-avbildningen installeras på BMM. När operativsystemet har installerats försöker BMM ansluta till klustret.
Provisioned Anger att BMM har etablerats och anslutits till klustret.
Deprovisioning Anger att BMM-etableringen misslyckades. Etableringstjänsten rensar resursen för återförsök.
Failed Anger att BMM-etableringen misslyckades och att manuell återställning krävs. Alla återförsök är uttömda.

Under alla faser är BMM-detaljerad status inställd på Failed. Fasen blockeras om något av följande avbrott inträffar:

  • BMC är inte tillgänglig.
  • En nätverksport är nere.
  • En maskinvarukomponent misslyckas.

Så här får du en mer detaljerad status för BMM:

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

I följande tabell visas var utdata definieras.

Output Definition
BMM_NAME BMM-namn.
RSTATE Status för klusterdeltagande (True,False).
PROV_STATE Etableringstillstånd (Succeeded,Failed).
STATUS Etablera detaljerad status (Registering,Preparing,Inspecting,Available,Provisioning,Provisioned,Deprovisioning,Failed).
STATUS_MSG Detaljerat statusmeddelande för etablering.
POWER_STATE Energisparläge för BMM (On,Off).
BMM_ROLE BMM-klusterroll (control-plane,management-plane,compute-plane).
CREATE_DATE BMM-skapandedatum.

Till exempel:

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

BMM-information

Så här visar du information och status för en enda BMM:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

För BMM-information som är specifik för felsökning:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Felsöka misslyckade etableringstillstånd

Följande villkor kan orsaka etableringsfel.

Typ av fel Åtgärd
BMC visar Backplane Comm kritiskt fel. 1. Kör BMM remote flea drain.
2. Utför BMM fysisk loppavlopp.
3. Kör BMM-åtgärden replace .
Startdatasvaret (PXE) är tomt från BMC. 1. Återställ porten på infrastrukturenheten.
2. Kör BMM remote flea drain.
3. Utför BMM fysisk loppavlopp.
4. Kör BMM-åtgärden replace .
Start (PXE) MAC-adress matchar inte. 1. Verifiera BMM MAC-adressdata mot BMC-data.
2. Kör BMM remote flea drain.
3. Utför BMM fysisk loppavlopp.
4. Kör BMM-åtgärden replace .
BMC MAC-adressmatchningsfel. 1. Verifiera BMM MAC-adressdata mot BMC-data.
2. Kör BMM remote flea drain.
3. Utför BMM fysisk loppavlopp.
4. Kör BMM-åtgärden replace .
Diskdatasvaret är tomt från BMC. 1. Ta bort eller ersätt disken.
2. Ta bort eller ersätt lagringsstyrenheten.
3. Kör BMM remote flea drain.
4. Utför BMM fysisk loppavlopp.
5. Kör BMM-åtgärden replace .
BMC kan inte nås. 1. Återställ porten på infrastrukturenheten.
2. Ta bort eller byt kabel.
3. Kör BMM remote flea drain.
4. Utför BMM fysisk loppavlopp.
5. Kör BMM-åtgärden replace .
BMC misslyckas med inloggning. 1. Uppdatera autentiseringsuppgifter på BMC.
2. Kör BMM-åtgärden replace .
Minnes-, CPU-, OEM-kritiska fel på BMC. 1. Lös maskinvaruproblem med ta bort eller ersätt.
2. Kör BMM remote flea drain.
3. Utför BMM fysisk loppavlopp.
4. Kör BMM-åtgärden replace .
Konsolen fastnade på grub-menyn (boot loader). 1. Kör NVRAM-återställning.
2. Kör BMM-åtgärden replace .

Azure BMM-aktivitetslogg

  1. Logga in på Azure-portalen.
  2. Sök efter BMM-namnet i den översta sökrutan .
  3. Välj namnet på Bare Metal Machine (Operator Nexus) i sökresultaten.
  4. På tjänstmenyn väljer du Aktivitetslogg.
  5. Kontrollera att tidsintervallvärdet omfattar etableringsperioden.
  6. Expandera åtgärden BareMetalMachines_Update och välj alla BMM:er som visar status Failed .
  7. Välj fliken JSON för att hämta det detaljerade statusmeddelandet.

Leta efter fel som rör ogiltiga autentiseringsuppgifter eller om BMC inte är tillgänglig.

Fastställa BMC IPv4-adressen

IPv4-adressen för BMC (BMC_IP) finns i värdet Connect som returnerades från föregående avsnitt "BMM-information".

Verifiera MAC-adressen för BMM mot BMC-data

Så här hämtar du MAC-adressinformationen från BMM:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Verifiera MAC-adressdata mot BMC via webbgränssnittet:

  • BMC>Dashboard: Visar BMC MAC-adressen.
  • BMC>System Info>Network>Embedded.1-1-1: Visar Boot MAC-adressen.

Kontrollera att MAC-adressen använder racadm från en jumpbox som har åtkomst till BMC-nätverket:

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Om MAC-adressen som anges i klustret är felaktig använder du BMM-åtgärden replace vid BMM-åtgärder för att korrigera adresserna.

Pingtesta BMC-anslutning

Försök att köra ping kommandot mot BMC IPv4-adressen:

  1. Hämta IPv4-adressen (BMC_IP) från föregående avsnitt "Fastställa BMC IPv4-adressen".

  2. Testa ping till BMC:

    Så här testar du från en jumpbox som har åtkomst till BMC-nätverket:

    ping $BMC_IP -c 3
    

    Så här testar du från en BMM-kontrollplansvärd med hjälp av Azure CLI:

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

Återställa porten på en infrastrukturenhet

Om BMC_IP den inte svarar kan en återställning av infrastrukturenhetens port retriggers autonegotiation på porten och göra den online igen.

Så här hittar Network Fabric du porten från Azure:

  1. RackID Hämta värdena och RackSlot från föregående avsnitt "BMM-information".

  2. I Azure Portal ökar du detaljnivån till rack-ID:t för nätverksrack för BMM.

  3. Välj fliken Nätverksenheter och välj sedan hanteringsväxeln (Mgmt) för racket.

  4. Under Resurser väljer du Nätverksgränssnitt. Välj sedan BMC-gränssnittet (iDRAC) eller startgränssnittet (PXE) för porten som kräver en återställning.

    Samla in följande information:

    • Resursgrupp för nätverksinfrastruktur (NF_RG)
    • Enhetsnamn (NF_DEVICE_NAME)
    • Gränssnittsnamn (NF_DEVICE_INTERFACE_NAME)
  5. Återställ porten:

    Så här återställer du porten med hjälp av Azure CLI:

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

BMM fjärrströmavlopp (loppavlopp)

Så här utför du en fjärrloppavlopp mot BMM genom BMC-användargränssnittet:

  1. Välj BMC>Configuration>BIOS Settings>Diverse inställningar.

  2. Under Power Cycle Request (Power Cycle-begäran) väljer du Fullständig effektcykel. Välj sedan Använd och starta om.

Utför en fjärrloppsavlopp med hjälp racadm av från en jumpbox som har åtkomst till BMC-nätverket:

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

BMM fysiskt strömavlopp (loppavlopp)

För ett fysiskt loppavlopp kopplar den lokala platsens händer fysiskt bort strömkablarna från båda strömadaptrarna i fem minuter och återställer sedan strömmen. Den här processen säkerställer att servern, kondensatorerna och alla komponenter har fullständig strömborttagning och att alla cachelagrade data rensas.

Återställa NVRAM

Om etableringen misslyckades på grund av ett OEM- eller maskinvarufel kan startsekvensen låsas i NVRAM i stället för att PXE boot visas hdd eller hard drive visas först i startordningen.

Det här villkoret visar vanligtvis BMM i startladdningssteget i konsolen och blockeras utan manuella tangenttryckningsåtgärder.

Om du vill återställa NVRAM använder du följande sekvens i BMC-användargränssnittet:

  1. Välj Underhållsdiagnostik>>Återställ iDrac till Fabriksstandarder.

  2. Välj Ignorera alla inställningar, men bevara användar- och nätverksinställningar och välj sedan Tillämpa och starta om.

Återställa BMC-lösenordet

Om aktivitetsloggen anger ogiltiga autentiseringsuppgifter på BMC kör du följande kommando från en jumpbox som har åtkomst till BMC-nätverket:

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Lägg till servrar i klustret igen efter en reparation

När maskinvaran har åtgärdats kör du BMM-åtgärden replace genom att följa anvisningarna i Hantera livscykeln för datorer utan operativsystem.