Felsöka BMM-etablering i ett Azure Operator Nexus-kluster
Som en del av en klusterdistributionsåtgärd etableras datorer utan operativsystem (BMM) med roller som krävs för att delta i klustret. Det här dokumentet stöder felsökning för vanliga etableringsproblem med hjälp av Azure CLI, Azure Portal och serverbaskortshanteringsstyrenheten (BMC). För Azure Operator Nexus-plattformen använder den underliggande servermaskinvaran integrerad Dell-fjärråtkomstkontrollant (iDRAC) som BMC. Etableringen använder PXE-gränssnittet (Preboot eXecution Environment) för att läsa in operativsystemet (OS) på BMM.
Förutsättningar
- Installera den senaste versionen av lämpliga CLI-tillägg.
- Samla in följande information:
- Prenumerations-ID (
SUBSCRIPTION
) - Klusternamn (
CLUSTER
) - Resursgrupp (
CLUSTER_RG
) - Hanterad resursgrupp (
CLUSTER_MRG
)
- Prenumerations-ID (
- Begär prenumerationsåtkomst för att köra Azure Operator Nexus-nätverksinfrastrukturen (NF) och cli-tilläggskommandona för nätverksmoln.
- Logga in på Azure CLI och välj den prenumeration där klustret distribueras.
BMM-roller
För en specifik version krävs roller för att hantera och driva det underliggande Kubernetes-klustret.
Följande roller tilldelas till BMM-resurser (se referensen för BMM-roller):
- Kontrollplan: BMM som ansvarar för att köra Kubernetes kontrollplansagenter för klustret.
- Hanteringsplan: BMM som ansvarar för att köra plattformsagenterna, inklusive styrenheter och tillägg.
- Beräkningsplan: BMM som ansvarar för att köra faktiska klientarbetsbelastningar, inklusive Kubernetes-kluster och virtuella datorer.
Visa en lista över BMM-status
Följande kommando visar en lista över alla bareMetalMachineName
resurser i den hanterade resursgruppen med enkel status:
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Processen STATUS
går igenom de faser som definieras i följande tabell i BMM-etableringsprocessen (se BMM-status i Azure Operator Nexus-beräkningsbegrepp):
Fas | Åtgärder |
---|---|
Registering |
Verifierar BMC-anslutningen/BMC-autentiseringsuppgifterna och lägger till BMM i etableringstjänsten. |
Preparing |
Startar om BMM, återställer BMC och verifierar energispartillståndet. |
Inspecting |
Uppdaterar inbyggd programvara, tillämpar BIOS-inställningar och konfigurerar lagring. |
Available |
Anger att BMM är redo att installera operativsystemet. |
Provisioning |
Anger att OS-avbildningen installeras på BMM. När operativsystemet har installerats försöker BMM ansluta till klustret. |
Provisioned |
Anger att BMM har etablerats och anslutits till klustret. |
Deprovisioning |
Anger att BMM-etableringen misslyckades. Etableringstjänsten rensar resursen för återförsök. |
Failed |
Anger att BMM-etableringen misslyckades och att manuell återställning krävs. Alla återförsök är uttömda. |
Under alla faser är BMM-detaljerad status inställd på Failed
. Fasen blockeras om något av följande avbrott inträffar:
- BMC är inte tillgänglig.
- En nätverksport är nere.
- En maskinvarukomponent misslyckas.
Så här får du en mer detaljerad status för BMM:
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
I följande tabell visas var utdata definieras.
Output | Definition |
---|---|
BMM_NAME |
BMM-namn. |
RSTATE |
Status för klusterdeltagande (True ,False ). |
PROV_STATE |
Etableringstillstånd (Succeeded ,Failed ). |
STATUS |
Etablera detaljerad status (Registering ,Preparing ,Inspecting ,Available ,Provisioning ,Provisioned ,Deprovisioning ,Failed ). |
STATUS_MSG |
Detaljerat statusmeddelande för etablering. |
POWER_STATE |
Energisparläge för BMM (On ,Off ). |
BMM_ROLE |
BMM-klusterroll (control-plane ,management-plane ,compute-plane ). |
CREATE_DATE |
BMM-skapandedatum. |
Till exempel:
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
BMM-information
Så här visar du information och status för en enda BMM:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
För BMM-information som är specifik för felsökning:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Felsöka misslyckade etableringstillstånd
Följande villkor kan orsaka etableringsfel.
Typ av fel | Åtgärd |
---|---|
BMC visar Backplane Comm kritiskt fel. |
1. Kör BMM remote flea drain. 2. Utför BMM fysisk loppavlopp. 3. Kör BMM-åtgärden replace . |
Startdatasvaret (PXE) är tomt från BMC. | 1. Återställ porten på infrastrukturenheten. 2. Kör BMM remote flea drain. 3. Utför BMM fysisk loppavlopp. 4. Kör BMM-åtgärden replace . |
Start (PXE) MAC-adress matchar inte. | 1. Verifiera BMM MAC-adressdata mot BMC-data. 2. Kör BMM remote flea drain. 3. Utför BMM fysisk loppavlopp. 4. Kör BMM-åtgärden replace . |
BMC MAC-adressmatchningsfel. | 1. Verifiera BMM MAC-adressdata mot BMC-data. 2. Kör BMM remote flea drain. 3. Utför BMM fysisk loppavlopp. 4. Kör BMM-åtgärden replace . |
Diskdatasvaret är tomt från BMC. | 1. Ta bort eller ersätt disken. 2. Ta bort eller ersätt lagringsstyrenheten. 3. Kör BMM remote flea drain. 4. Utför BMM fysisk loppavlopp. 5. Kör BMM-åtgärden replace . |
BMC kan inte nås. | 1. Återställ porten på infrastrukturenheten. 2. Ta bort eller byt kabel. 3. Kör BMM remote flea drain. 4. Utför BMM fysisk loppavlopp. 5. Kör BMM-åtgärden replace . |
BMC misslyckas med inloggning. | 1. Uppdatera autentiseringsuppgifter på BMC. 2. Kör BMM-åtgärden replace . |
Minnes-, CPU-, OEM-kritiska fel på BMC. | 1. Lös maskinvaruproblem med ta bort eller ersätt. 2. Kör BMM remote flea drain. 3. Utför BMM fysisk loppavlopp. 4. Kör BMM-åtgärden replace . |
Konsolen fastnade på grub-menyn (boot loader). | 1. Kör NVRAM-återställning. 2. Kör BMM-åtgärden replace . |
Azure BMM-aktivitetslogg
- Logga in på Azure-portalen.
- Sök efter BMM-namnet i den översta sökrutan .
- Välj namnet på Bare Metal Machine (Operator Nexus) i sökresultaten.
- På tjänstmenyn väljer du Aktivitetslogg.
- Kontrollera att tidsintervallvärdet omfattar etableringsperioden.
- Expandera åtgärden
BareMetalMachines_Update
och välj alla BMM:er som visar statusFailed
. - Välj fliken JSON för att hämta det detaljerade statusmeddelandet.
Leta efter fel som rör ogiltiga autentiseringsuppgifter eller om BMC inte är tillgänglig.
Fastställa BMC IPv4-adressen
IPv4-adressen för BMC (BMC_IP
) finns i värdet Connect
som returnerades från föregående avsnitt "BMM-information".
Verifiera MAC-adressen för BMM mot BMC-data
Så här hämtar du MAC-adressinformationen från BMM:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Verifiera MAC-adressdata mot BMC via webbgränssnittet:
BMC
>Dashboard
: Visar BMC MAC-adressen.BMC
>System Info
>Network
>Embedded.1-1-1
: Visar Boot MAC-adressen.
Kontrollera att MAC-adressen använder racadm
från en jumpbox som har åtkomst till BMC-nätverket:
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Om MAC-adressen som anges i klustret är felaktig använder du BMM-åtgärden replace
vid BMM-åtgärder för att korrigera adresserna.
Pingtesta BMC-anslutning
Försök att köra ping
kommandot mot BMC IPv4-adressen:
Hämta IPv4-adressen (
BMC_IP
) från föregående avsnitt "Fastställa BMC IPv4-adressen".Testa
ping
till BMC:Så här testar du från en jumpbox som har åtkomst till BMC-nätverket:
ping $BMC_IP -c 3
Så här testar du från en BMM-kontrollplansvärd med hjälp av Azure CLI:
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
Återställa porten på en infrastrukturenhet
Om BMC_IP
den inte svarar kan en återställning av infrastrukturenhetens port retriggers autonegotiation på porten och göra den online igen.
Så här hittar Network Fabric
du porten från Azure:
RackID
Hämta värdena ochRackSlot
från föregående avsnitt "BMM-information".I Azure Portal ökar du detaljnivån till rack-ID:t för nätverksrack för BMM.
Välj fliken Nätverksenheter och välj sedan hanteringsväxeln (Mgmt) för racket.
Under Resurser väljer du Nätverksgränssnitt. Välj sedan BMC-gränssnittet (iDRAC) eller startgränssnittet (PXE) för porten som kräver en återställning.
Samla in följande information:
- Resursgrupp för nätverksinfrastruktur (
NF_RG
) - Enhetsnamn (
NF_DEVICE_NAME
) - Gränssnittsnamn (
NF_DEVICE_INTERFACE_NAME
)
- Resursgrupp för nätverksinfrastruktur (
Återställ porten:
Så här återställer du porten med hjälp av Azure CLI:
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
BMM fjärrströmavlopp (loppavlopp)
Så här utför du en fjärrloppavlopp mot BMM genom BMC-användargränssnittet:
Välj BMC>Configuration>BIOS Settings>Diverse inställningar.
Under Power Cycle Request (Power Cycle-begäran) väljer du Fullständig effektcykel. Välj sedan Använd och starta om.
Utför en fjärrloppsavlopp med hjälp racadm
av från en jumpbox som har åtkomst till BMC-nätverket:
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
BMM fysiskt strömavlopp (loppavlopp)
För ett fysiskt loppavlopp kopplar den lokala platsens händer fysiskt bort strömkablarna från båda strömadaptrarna i fem minuter och återställer sedan strömmen. Den här processen säkerställer att servern, kondensatorerna och alla komponenter har fullständig strömborttagning och att alla cachelagrade data rensas.
Återställa NVRAM
Om etableringen misslyckades på grund av ett OEM- eller maskinvarufel kan startsekvensen låsas i NVRAM i stället för att PXE boot
visas hdd
eller hard drive
visas först i startordningen.
Det här villkoret visar vanligtvis BMM i startladdningssteget i konsolen och blockeras utan manuella tangenttryckningsåtgärder.
Om du vill återställa NVRAM använder du följande sekvens i BMC-användargränssnittet:
Välj Underhållsdiagnostik>>Återställ iDrac till Fabriksstandarder.
Välj Ignorera alla inställningar, men bevara användar- och nätverksinställningar och välj sedan Tillämpa och starta om.
Återställa BMC-lösenordet
Om aktivitetsloggen anger ogiltiga autentiseringsuppgifter på BMC kör du följande kommando från en jumpbox som har åtkomst till BMC-nätverket:
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Lägg till servrar i klustret igen efter en reparation
När maskinvaran har åtgärdats kör du BMM-åtgärden replace
genom att följa anvisningarna i Hantera livscykeln för datorer utan operativsystem.
Relaterat innehåll
- Kontakta Azure Support om du fortfarande har frågor.
- Mer information om Azure-support finns i Azure-supportplaner.