Sdílet prostřednictvím


Řešení potíží se zřizováním BMM v clusteru Azure Operator Nexus

V rámci akce nasazení clusteru se zřizují holé počítače (BMM) s rolemi, které jsou potřeba k účasti v clusteru. Tento dokument podporuje řešení běžných problémů se zřizováním pomocí Azure CLI, webu Azure Portal a řadiče pro správu základní desky (BMC). Pro platformu Azure Operator Nexus používá základní serverový hardware integrovaný řadič vzdáleného přístupu Dell (iDRAC) jako řadič pro správu základní desky. Zřizování používá rozhraní PXE (Preboot eXecution Environment) k načtení operačního systému (OS) do nástroje BMM.

Požadavky

  1. Nainstalujte nejnovější verzi příslušných rozšíření rozhraní příkazového řádku.
  2. Shromážděte následující informace:
    • ID předplatného (SUBSCRIPTION)
    • Název clusteru (CLUSTER)
    • Skupina prostředků (CLUSTER_RG)
    • Spravovaná skupina prostředků (CLUSTER_MRG)
  3. Požádejte o přístup k předplatnému a spusťte příkazy rozšíření Azure Operator Nexus Network Fabric (NF) a síťového cloudového rozhraní příkazového řádku.
  4. Přihlaste se k Azure CLI a vyberte předplatné, ve kterém je cluster nasazený.

Role BMM

Pro konkrétní verzi se role vyžadují ke správě a provozu základního clusteru Kubernetes.

K prostředkům BMM jsou přiřazeny následující role (viz referenční informace o rolích BMM):

  • Řídicí rovina: BMM zodpovědný za spuštění agentů řídicí roviny Kubernetes pro cluster.
  • Rovina správy: BMM zodpovědný za spouštění agentů platformy, včetně kontrolerů a rozšíření.
  • Výpočetní rovina: BMM zodpovědný za spouštění skutečných úloh tenantů, včetně clusterů Kubernetes a virtuálních počítačů.

Výpis stavu BMM

Následující příkaz zobrazí seznam všech bareMetalMachineName prostředků ve spravované skupině prostředků s jednoduchým stavem:

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

Tento STATUS proces prochází fázemi definovanými v následující tabulce v procesu zřizování BMM (viz stav BMM ve výpočetních konceptech operátora Azure Nexus):

Fáze Akce
Registering Ověří připojení řadiče pro správu základní desky nebo přihlašovací údaje řadiče pro správu základní desky a přidá BMM do služby zřizování.
Preparing Restartuje BMM, resetuje řadič pro správu základní desky a ověří stav napájení.
Inspecting Aktualizuje firmware, použije nastavení systému BIOS a nakonfiguruje úložiště.
Available Označuje, že nástroj BMM je připravený k instalaci operačního systému.
Provisioning Označuje, že se image operačního systému instaluje do nástroje BMM. Po instalaci operačního systému se nástroj BMM pokusí připojit ke clusteru.
Provisioned Označuje, že nástroj BMM je úspěšně zřízený a připojený ke clusteru.
Deprovisioning Označuje, že zřizování BMM selhalo. Služba zřizování vyčistí prostředek pro opakování.
Failed Označuje, že zřizování BMM selhalo a vyžaduje ruční obnovení. Všechny opakování jsou vyčerpány.

Během jakékoli fáze je podrobný stav nástroje BMM nastaven na Failedhodnotu . Fáze se zablokuje, pokud dojde k některému z následujících přerušení:

  • Řadič pro správu základní desky není k dispozici.
  • Síťový port je dole.
  • Hardwarová komponenta selže.

Získání podrobnějšího stavu nástroje BMM:

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

Následující tabulka uvádí, kde je definován výstup.

Výstup Definice
BMM_NAME Název nástroje BMM
RSTATE Stav účasti clusteru (True,False).
PROV_STATE Stav zřizování (Succeeded,Failed).
STATUS Zřizování podrobného stavu (Registering,Preparing,Inspecting,Available,Provisioning,,Provisioned,Deprovisioning ).Failed
STATUS_MSG Podrobná stavová zpráva o zřizování
POWER_STATE Stav napájení BMM (On,Off).
BMM_ROLE Role clusteru BMM (control-plane,compute-planemanagement-plane).
CREATE_DATE Datum vytvoření nástroje BMM.

Příklad:

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

Podrobnosti nástroje BMM

Zobrazení podrobností a stavu jednoho nástroje BMM:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

Podrobnosti O nástroji BMM specifické pro řešení potíží:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Řešení potíží se stavy neúspěšného zřizování

Následující podmínky můžou způsobit selhání zřizování.

Typ chyby Rozlišení
Řadič pro správu základní desky zobrazuje Backplane Comm kritickou chybu. 1. Spusťte vzdálené odtok blechy BMM.
2. Proveďte fyzické odtoky bMM blechy.
3. Spusťte akci BMM replace .
Odpověď na síťová data spouštění (PXE) je prázdná z řadiče pro správu základní desky. 1. Resetujte port na zařízení fabric.
2. Spusťte vzdálený odtok blech BMM.
3. Proveďte fyzický odtok blechy BMM.
4. Spusťte akci BMM replace .
Neshoda adres MAC při spuštění (PXE). 1. Ověřte data adresy MAC nástroje BMM pro data řadiče pro správu základní desky.
2. Spusťte vzdálený odtok blech BMM.
3. Proveďte fyzický odtok blechy BMM.
4. Spusťte akci BMM replace .
Neshoda adres MAC řadiče pro správu základní desky 1. Ověřte data adresy MAC nástroje BMM pro data řadiče pro správu základní desky.
2. Spusťte vzdálený odtok blech BMM.
3. Proveďte fyzický odtok blechy BMM.
4. Spusťte akci BMM replace .
Odpověď na data disku je prázdná z řadiče pro správu základní desky. 1. Odeberte nebo nahraďte disk.
2. Odeberte nebo nahraďte řadič úložiště.
3. Spusťte vzdálené odtok blechy BMM.
4. Proveďte fyzický odtok blechy BMM.
5. Spusťte akci BMM replace .
Nedostupný řadič pro správu základní desky. 1. Resetujte port na zařízení fabric.
2. Vyjměte nebo nahraďte kabel.
3. Spusťte vzdálené odtok blechy BMM.
4. Proveďte fyzický odtok blechy BMM.
5. Spusťte akci BMM replace .
Přihlášení řadiče pro správu základní desky se nezdařilo. 1. Aktualizujte přihlašovací údaje řadiče pro správu základní desky.
2. Spusťte akci BMM replace .
Paměť, procesor, kritické chyby OEM v řadiči pro správu základní desky. 1. Vyřešte problém s hardwarem s odebráním nebo nahrazením.
2. Spusťte vzdálený odtok blech BMM.
3. Proveďte fyzický odtok blechy BMM.
4. Spusťte akci BMM replace .
Konzola se zasekla v nabídce zavaděče spouštění (GRUB). 1. Spusťte resetování NVRAM.
2. Spusťte akci BMM replace .

Protokol aktivit Azure BMM

  1. Přihlaste se k portálu Azure.
  2. Vyhledejte název BMM v horním vyhledávacím poli.
  3. Ve výsledcích hledání vyberte název holého počítače (Operator Nexus).
  4. V nabídce služby vyberte protokol aktivit.
  5. Ujistěte se, že hodnota časového rozsahu zahrnuje období zřizování.
  6. BareMetalMachines_Update Rozbalte operaci a vyberte všechny BMM, které zobrazují Failed stav.
  7. Výběrem karty JSON získáte podrobnou stavovou zprávu.

Vyhledejte chyby související s neplatnými přihlašovacími údaji nebo pokud řadič pro správu základní desky není k dispozici.

Určení adresy IPv4 řadiče pro správu základní desky

Adresa IPv4 řadiče pro správu základní desky (BMC_IPBMC) je v Connect hodnotě vrácené z předchozí části "Podrobnosti nástroje BMM".

Ověření adresy MAC nástroje BMM proti datům řadiče pro správu základní desky

Získání informací o adrese MAC z nástroje BMM:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Ověřte data adresy MAC v řadiči pro správu základní desky prostřednictvím webového uživatelského rozhraní:

  • BMC>Dashboard: Zobrazuje adresu MAC řadiče pro správu základní desky.
  • BMC>System Info>Network>Embedded.1-1-1: Zobrazuje adresu MAC pro spuštění.

Ověřte, že adresa MAC používá racadm jumpbox, který má přístup k síti řadiče pro správu základní desky:

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Pokud je adresa MAC zadaná do clusteru nesprávná, opravte adresy pomocí akce BMM replace v akcích BMM.

Test připojení řadiče pro správu základní desky příkazem Ping

Pokus o spuštění ping příkazu s adresou IPv4 řadiče pro správu základní desky:

  1. Získejte adresu IPv4 (BMC_IP) z předchozí části "Určení adresy IPv4 řadiče pro správu základní desky".

  2. Otestujte ping řadič pro správu základní desky:

    Testování z jumpboxu, který má přístup k síti řadiče pro správu základní desky:

    ping $BMC_IP -c 3
    

    Testování z hostitele řídicí roviny BMM pomocí Azure CLI:

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

Resetování portu na zařízení prostředků infrastruktury

Pokud BMC_IP nereaguje, resetování portu zařízení prostředků infrastruktury provede automatickégotiace na portu a může se vrátit do režimu online.

Network Fabric Vyhledání portu z Azure:

  1. RackID Získejte hodnoty a RackSlot hodnoty z předchozí části "Podrobnosti nástroje BMM".

  2. Na webu Azure Portal přejděte k podrobnostem ID racku síťového racku pro BMM.

  3. Vyberte kartu Síťová zařízení a pak vyberte přepínač pro správu (Mgmt) pro rack.

  4. V části Prostředky vyberte Síťová rozhraní. Pak vyberte rozhraní řadiče pro správu základní desky (iDRAC) nebo rozhraní PXE (PXE) pro port, který vyžaduje resetování.

    Shromážděte následující informace:

    • Skupina prostředků Síťové prostředky infrastruktury (NF_RG)
    • Název zařízení (NF_DEVICE_NAME)
    • Název rozhraní (NF_DEVICE_INTERFACE_NAME)
  5. Resetujte port:

    Resetování portu pomocí Azure CLI:

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

Odtok vzdáleného napájení BMM (odtok blechy)

Provedení vzdáleného odtoku blechy proti BMM prostřednictvím uživatelského rozhraní řadiče pro správu základní desky:

  1. Vyberte Nastavení systému BIOS>konfigurace>řadiče pro správu základní desky>– Různá nastavení.

  2. V části Požadavek na cyklus napájení vyberte Úplný cyklus napájení. Pak vyberte Použít a restartovat.

Proveďte vzdálený odtok blech pomocí racadm jumpboxu, který má přístup k síti řadiče pro správu základní desky:

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

Vyprázdnění fyzického výkonu BMM (odtok blech)

Při fyzickém odtoku blechy ruce místní lokality fyzicky odpojte napájecí kabely od obou napájecích adaptérů po dobu pěti minut a pak obnovte napájení. Tento proces zajišťuje, že server, kondenzátory a všechny komponenty mají úplné vyjmutí napájení a že všechna data uložená v mezipaměti jsou vymazána.

Resetování paměti NVRAM

Pokud zřizování selhalo kvůli chybě OEM nebo hardwaru, může být spouštěcí sekvence v prostředí NVRAM PXE boot uzamčena místo zobrazení hdd nebo hard drive uvedení jako první ve spouštěcím pořadí.

Tato podmínka obvykle ukazuje BMM ve fázi zavaděče spouštění v konzole a je blokován bez zásahu ručního stisknutí klávesy.

K resetování síťového virtuálního zařízení použijte v uživatelském rozhraní řadiče pro správu základní desky následující posloupnost:

  1. Vyberte resetování diagnostiky>údržby>na výchozí tovární nastavení.

  2. Vyberte Zahodit všechna nastavení, ale zachovat nastavení uživatele a sítě a pak vyberte Použít a restartovat.

Resetování hesla řadiče pro správu základní desky

Pokud protokol aktivit indikuje neplatné přihlašovací údaje řadiče pro správu základní desky, spusťte následující příkaz z jumpboxu, který má přístup k síti řadiče pro správu základní desky:

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Přidání serverů zpět do clusteru po opravě

Po opravení hardwaru spusťte akci BMM replace podle pokynů v tématu Správa životního cyklu holých počítačů.