Řešení potíží se zřizováním BMM v clusteru Azure Operator Nexus
V rámci akce nasazení clusteru se zřizují holé počítače (BMM) s rolemi, které jsou potřeba k účasti v clusteru. Tento dokument podporuje řešení běžných problémů se zřizováním pomocí Azure CLI, webu Azure Portal a řadiče pro správu základní desky (BMC). Pro platformu Azure Operator Nexus používá základní serverový hardware integrovaný řadič vzdáleného přístupu Dell (iDRAC) jako řadič pro správu základní desky. Zřizování používá rozhraní PXE (Preboot eXecution Environment) k načtení operačního systému (OS) do nástroje BMM.
Požadavky
- Nainstalujte nejnovější verzi příslušných rozšíření rozhraní příkazového řádku.
- Shromážděte následující informace:
- ID předplatného (
SUBSCRIPTION
) - Název clusteru (
CLUSTER
) - Skupina prostředků (
CLUSTER_RG
) - Spravovaná skupina prostředků (
CLUSTER_MRG
)
- ID předplatného (
- Požádejte o přístup k předplatnému a spusťte příkazy rozšíření Azure Operator Nexus Network Fabric (NF) a síťového cloudového rozhraní příkazového řádku.
- Přihlaste se k Azure CLI a vyberte předplatné, ve kterém je cluster nasazený.
Role BMM
Pro konkrétní verzi se role vyžadují ke správě a provozu základního clusteru Kubernetes.
K prostředkům BMM jsou přiřazeny následující role (viz referenční informace o rolích BMM):
- Řídicí rovina: BMM zodpovědný za spuštění agentů řídicí roviny Kubernetes pro cluster.
- Rovina správy: BMM zodpovědný za spouštění agentů platformy, včetně kontrolerů a rozšíření.
- Výpočetní rovina: BMM zodpovědný za spouštění skutečných úloh tenantů, včetně clusterů Kubernetes a virtuálních počítačů.
Výpis stavu BMM
Následující příkaz zobrazí seznam všech bareMetalMachineName
prostředků ve spravované skupině prostředků s jednoduchým stavem:
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Tento STATUS
proces prochází fázemi definovanými v následující tabulce v procesu zřizování BMM (viz stav BMM ve výpočetních konceptech operátora Azure Nexus):
Fáze | Akce |
---|---|
Registering |
Ověří připojení řadiče pro správu základní desky nebo přihlašovací údaje řadiče pro správu základní desky a přidá BMM do služby zřizování. |
Preparing |
Restartuje BMM, resetuje řadič pro správu základní desky a ověří stav napájení. |
Inspecting |
Aktualizuje firmware, použije nastavení systému BIOS a nakonfiguruje úložiště. |
Available |
Označuje, že nástroj BMM je připravený k instalaci operačního systému. |
Provisioning |
Označuje, že se image operačního systému instaluje do nástroje BMM. Po instalaci operačního systému se nástroj BMM pokusí připojit ke clusteru. |
Provisioned |
Označuje, že nástroj BMM je úspěšně zřízený a připojený ke clusteru. |
Deprovisioning |
Označuje, že zřizování BMM selhalo. Služba zřizování vyčistí prostředek pro opakování. |
Failed |
Označuje, že zřizování BMM selhalo a vyžaduje ruční obnovení. Všechny opakování jsou vyčerpány. |
Během jakékoli fáze je podrobný stav nástroje BMM nastaven na Failed
hodnotu . Fáze se zablokuje, pokud dojde k některému z následujících přerušení:
- Řadič pro správu základní desky není k dispozici.
- Síťový port je dole.
- Hardwarová komponenta selže.
Získání podrobnějšího stavu nástroje BMM:
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
Následující tabulka uvádí, kde je definován výstup.
Výstup | Definice |
---|---|
BMM_NAME |
Název nástroje BMM |
RSTATE |
Stav účasti clusteru (True ,False ). |
PROV_STATE |
Stav zřizování (Succeeded ,Failed ). |
STATUS |
Zřizování podrobného stavu (Registering ,Preparing ,Inspecting ,Available ,Provisioning ,,Provisioned ,Deprovisioning ).Failed |
STATUS_MSG |
Podrobná stavová zpráva o zřizování |
POWER_STATE |
Stav napájení BMM (On ,Off ). |
BMM_ROLE |
Role clusteru BMM (control-plane ,compute-plane management-plane ). |
CREATE_DATE |
Datum vytvoření nástroje BMM. |
Příklad:
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
Podrobnosti nástroje BMM
Zobrazení podrobností a stavu jednoho nástroje BMM:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
Podrobnosti O nástroji BMM specifické pro řešení potíží:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Řešení potíží se stavy neúspěšného zřizování
Následující podmínky můžou způsobit selhání zřizování.
Typ chyby | Rozlišení |
---|---|
Řadič pro správu základní desky zobrazuje Backplane Comm kritickou chybu. |
1. Spusťte vzdálené odtok blechy BMM. 2. Proveďte fyzické odtoky bMM blechy. 3. Spusťte akci BMM replace . |
Odpověď na síťová data spouštění (PXE) je prázdná z řadiče pro správu základní desky. | 1. Resetujte port na zařízení fabric. 2. Spusťte vzdálený odtok blech BMM. 3. Proveďte fyzický odtok blechy BMM. 4. Spusťte akci BMM replace . |
Neshoda adres MAC při spuštění (PXE). | 1. Ověřte data adresy MAC nástroje BMM pro data řadiče pro správu základní desky. 2. Spusťte vzdálený odtok blech BMM. 3. Proveďte fyzický odtok blechy BMM. 4. Spusťte akci BMM replace . |
Neshoda adres MAC řadiče pro správu základní desky | 1. Ověřte data adresy MAC nástroje BMM pro data řadiče pro správu základní desky. 2. Spusťte vzdálený odtok blech BMM. 3. Proveďte fyzický odtok blechy BMM. 4. Spusťte akci BMM replace . |
Odpověď na data disku je prázdná z řadiče pro správu základní desky. | 1. Odeberte nebo nahraďte disk. 2. Odeberte nebo nahraďte řadič úložiště. 3. Spusťte vzdálené odtok blechy BMM. 4. Proveďte fyzický odtok blechy BMM. 5. Spusťte akci BMM replace . |
Nedostupný řadič pro správu základní desky. | 1. Resetujte port na zařízení fabric. 2. Vyjměte nebo nahraďte kabel. 3. Spusťte vzdálené odtok blechy BMM. 4. Proveďte fyzický odtok blechy BMM. 5. Spusťte akci BMM replace . |
Přihlášení řadiče pro správu základní desky se nezdařilo. | 1. Aktualizujte přihlašovací údaje řadiče pro správu základní desky. 2. Spusťte akci BMM replace . |
Paměť, procesor, kritické chyby OEM v řadiči pro správu základní desky. | 1. Vyřešte problém s hardwarem s odebráním nebo nahrazením. 2. Spusťte vzdálený odtok blech BMM. 3. Proveďte fyzický odtok blechy BMM. 4. Spusťte akci BMM replace . |
Konzola se zasekla v nabídce zavaděče spouštění (GRUB). | 1. Spusťte resetování NVRAM. 2. Spusťte akci BMM replace . |
Protokol aktivit Azure BMM
- Přihlaste se k portálu Azure.
- Vyhledejte název BMM v horním vyhledávacím poli.
- Ve výsledcích hledání vyberte název holého počítače (Operator Nexus).
- V nabídce služby vyberte protokol aktivit.
- Ujistěte se, že hodnota časového rozsahu zahrnuje období zřizování.
BareMetalMachines_Update
Rozbalte operaci a vyberte všechny BMM, které zobrazujíFailed
stav.- Výběrem karty JSON získáte podrobnou stavovou zprávu.
Vyhledejte chyby související s neplatnými přihlašovacími údaji nebo pokud řadič pro správu základní desky není k dispozici.
Určení adresy IPv4 řadiče pro správu základní desky
Adresa IPv4 řadiče pro správu základní desky (BMC_IP
BMC) je v Connect
hodnotě vrácené z předchozí části "Podrobnosti nástroje BMM".
Ověření adresy MAC nástroje BMM proti datům řadiče pro správu základní desky
Získání informací o adrese MAC z nástroje BMM:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Ověřte data adresy MAC v řadiči pro správu základní desky prostřednictvím webového uživatelského rozhraní:
BMC
>Dashboard
: Zobrazuje adresu MAC řadiče pro správu základní desky.BMC
>System Info
>Network
>Embedded.1-1-1
: Zobrazuje adresu MAC pro spuštění.
Ověřte, že adresa MAC používá racadm
jumpbox, který má přístup k síti řadiče pro správu základní desky:
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Pokud je adresa MAC zadaná do clusteru nesprávná, opravte adresy pomocí akce BMM replace
v akcích BMM.
Test připojení řadiče pro správu základní desky příkazem Ping
Pokus o spuštění ping
příkazu s adresou IPv4 řadiče pro správu základní desky:
Získejte adresu IPv4 (
BMC_IP
) z předchozí části "Určení adresy IPv4 řadiče pro správu základní desky".Otestujte
ping
řadič pro správu základní desky:Testování z jumpboxu, který má přístup k síti řadiče pro správu základní desky:
ping $BMC_IP -c 3
Testování z hostitele řídicí roviny BMM pomocí Azure CLI:
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
Resetování portu na zařízení prostředků infrastruktury
Pokud BMC_IP
nereaguje, resetování portu zařízení prostředků infrastruktury provede automatickégotiace na portu a může se vrátit do režimu online.
Network Fabric
Vyhledání portu z Azure:
RackID
Získejte hodnoty aRackSlot
hodnoty z předchozí části "Podrobnosti nástroje BMM".Na webu Azure Portal přejděte k podrobnostem ID racku síťového racku pro BMM.
Vyberte kartu Síťová zařízení a pak vyberte přepínač pro správu (Mgmt) pro rack.
V části Prostředky vyberte Síťová rozhraní. Pak vyberte rozhraní řadiče pro správu základní desky (iDRAC) nebo rozhraní PXE (PXE) pro port, který vyžaduje resetování.
Shromážděte následující informace:
- Skupina prostředků Síťové prostředky infrastruktury (
NF_RG
) - Název zařízení (
NF_DEVICE_NAME
) - Název rozhraní (
NF_DEVICE_INTERFACE_NAME
)
- Skupina prostředků Síťové prostředky infrastruktury (
Resetujte port:
Resetování portu pomocí Azure CLI:
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
Odtok vzdáleného napájení BMM (odtok blechy)
Provedení vzdáleného odtoku blechy proti BMM prostřednictvím uživatelského rozhraní řadiče pro správu základní desky:
Vyberte Nastavení systému BIOS>konfigurace>řadiče pro správu základní desky>– Různá nastavení.
V části Požadavek na cyklus napájení vyberte Úplný cyklus napájení. Pak vyberte Použít a restartovat.
Proveďte vzdálený odtok blech pomocí racadm
jumpboxu, který má přístup k síti řadiče pro správu základní desky:
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
Vyprázdnění fyzického výkonu BMM (odtok blech)
Při fyzickém odtoku blechy ruce místní lokality fyzicky odpojte napájecí kabely od obou napájecích adaptérů po dobu pěti minut a pak obnovte napájení. Tento proces zajišťuje, že server, kondenzátory a všechny komponenty mají úplné vyjmutí napájení a že všechna data uložená v mezipaměti jsou vymazána.
Resetování paměti NVRAM
Pokud zřizování selhalo kvůli chybě OEM nebo hardwaru, může být spouštěcí sekvence v prostředí NVRAM PXE boot
uzamčena místo zobrazení hdd
nebo hard drive
uvedení jako první ve spouštěcím pořadí.
Tato podmínka obvykle ukazuje BMM ve fázi zavaděče spouštění v konzole a je blokován bez zásahu ručního stisknutí klávesy.
K resetování síťového virtuálního zařízení použijte v uživatelském rozhraní řadiče pro správu základní desky následující posloupnost:
Vyberte resetování diagnostiky>údržby>na výchozí tovární nastavení.
Vyberte Zahodit všechna nastavení, ale zachovat nastavení uživatele a sítě a pak vyberte Použít a restartovat.
Resetování hesla řadiče pro správu základní desky
Pokud protokol aktivit indikuje neplatné přihlašovací údaje řadiče pro správu základní desky, spusťte následující příkaz z jumpboxu, který má přístup k síti řadiče pro správu základní desky:
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Přidání serverů zpět do clusteru po opravě
Po opravení hardwaru spusťte akci BMM replace
podle pokynů v tématu Správa životního cyklu holých počítačů.
Související obsah
- Pokud máte stále dotazy, kontaktujte podpora Azure.
- Další informace o plánech podpory najdete na stránce Plány podpory Azure.