Sdílet prostřednictvím


Správa životního cyklu holých počítačů

Tento článek popisuje, jak provádět operace správy životního cyklu na holých počítačích (BMM). Tyto kroky by se měly použít pro účely řešení potíží, které se mají zotavit z selhání nebo při provádění akcí údržby. Příkazy pro správu životního cyklu nástroje BMM zahrnují:

Upozornění

Neprovádějte žádnou akci se servery pro správu bez první konzultace s pracovníky podpory Microsoftu. To by mohlo ovlivnit integritu clusteru Operátor Nexus.

  • Vypnutí BMM
  • Spuštění nástroje BMM
  • Restartování nástroje BMM
  • Nastavení neplánovatelného nástroje BMM (cordon bez evakuátu)
  • Nastavení neplánovatelného nástroje BMM (cordon s evakuátem)
  • Nastavení schedavatelného nástroje BMM (bez opravy)
  • Opětovné vytvoření image BMM
  • Nahrazení nástroje BMM

Důležité

Rušivé požadavky příkazů na uzel řídicí roviny Kubernetes (KCP) jsou odmítnuty, pokud je na jiném uzlu KCP spuštěn jiný příkaz rušivé akce nebo pokud není k dispozici úplný KCP. Tato kontrola se provádí, aby se zachovala integrita instance Nexus a zajistilo, že více uzlů KCP nebude fungovat najednou kvůli souběžným rušivým akcím. Pokud se více uzlů stane nefunkčním, přeruší prahovou hodnotu kvora v pořádku řídicí roviny Kubernetes.

Akce s tučným písmem v seznamu výše jsou považovány za rušivé (vypnutí, restartování, opětovné nastavení, nahrazení). Cordon bez evakuátu se nepovažuje za rušivé. Cordon s evakuátem se považuje za rušivé.

Jak je uvedeno v upozornění, spouštění akcí na serverech pro správu, zejména uzlů KCP, by se mělo provádět pouze v konzultaci s pracovníky podpory Microsoftu.

Požadavky

  1. Nainstalujte nejnovější verzi příslušných rozšíření rozhraní příkazového řádku.
  2. Získejte název skupiny prostředků pro skupinu prostředků BMM – název skupiny prostředků spravované clusterem (cluster_MRG).
  3. Získejte název holého počítače, který vyžaduje operaci správy životního cyklu.
  4. Ujistěte se, že cílový holý počítač poweredState je nastaven na On a readyState nastaven na True.
    1. Tento požadavek není pro příkaz použitelný start .

Vypnutí BMM

Tento příkaz určí power-off .bareMetalMachineName

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Spuštění nástroje BMM

Tento příkaz určí start .bareMetalMachineName

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Restartování nástroje BMM

Tento příkaz určí restart .bareMetalMachineName

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Nastavení neplánovatelného nástroje BMM (cordon)

Pokud chcete zjistit, jestli některé úlohy aktuálně běží v nástroji BMM, spusťte následující příkaz:

Pro virtuální počítače:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Pro uzly clusteru Nexus Kubernetes: (vyžaduje přihlášení ke clusteru Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Provedením cordon příkazu můžete neplánovat nástroj BMM. Při spuštění cordon příkazu nejsou úlohy Operator Nexus naplánovány v nástroji BMM při nastavení cordonu. Při každém pokusu o vytvoření úlohy v cordoned nástroji BMM dojde k nastavení úlohy na pending stav. Stávající úlohy se budou dál spouštět. Příkaz cordon podporuje evacuate parametr s výchozí False hodnotou. Osvědčeným postupem je nastavit tuto Truemožnost . Při spuštění cordon příkazu s hodnotou True parametru evacuate jsou stopped úlohy spuštěné v nástroji BMM a nástroj BMM je nastavený na pending stav.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Odebere evacuate "True" úlohy z tohoto uzlu, ale evacuate "False" zabrání jenom plánování nových úloh.

Nastavení "schedulable" nástroje BMM (uncordon)

Spuštěním uncordon příkazu můžete nastavit, aby byl nástroj BMM "schedable" (použitelný). Všechny úlohy ve pending stavu nástroje BMM jsou restarted , když je uncordonedBMM .

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Opětovné vytvoření image BMM

Verzi modulu runtime můžete obnovit v nástroji BMM spuštěním reimage příkazu. Tento proces znovu nasadí image modulu runtime do cílového nástroje BMM a provede kroky pro opětovné připojení clusteru se stejnými identifikátory. Tato akce nemá vliv na soubory úloh tenanta v tomto nástroji BMM. V případě akce zápisu nebo úpravy prováděné na uzlu prostřednictvím přístupu BMM se k obnovení podpory Microsoftu vyžaduje tato akce reimage a změny budou ztraceny, obnovení uzlu do očekávaného stavu. Osvědčeným postupem je před spuštěním reimage příkazu vyprázdnit cordon úlohy BMM.evacuate "True"

Upozorňující

Spuštění více než jednoho baremetalmachine replace nebo reimage příkazu najednou nebo spuštění replace současně s tím, že reimage servery zůstanou mimo pracovní stav. Před spuštěním jiné se ujistěte, že replace/reimage je úplně dokončený.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Nahrazení nástroje BMM

replace Příkaz použijte, když na serveru dochází k problémům s hardwarem, které vyžadují úplné nebo částečné nahrazení hardwaru. Po nahrazení součástí, jako je základní deska nebo síťová karta (NIC), se změní adresa MAC nástroje BMM, ale IP adresa a název hostitele iDRAC zůstanou stejné.

Upozorňující

Spuštění více než jednoho baremetalmachine replace nebo reimage příkazu najednou nebo spuštění replace současně s tím, že reimage servery zůstanou mimo pracovní stav. Před spuštěním jiné se ujistěte, že replace/reimage je úplně dokončený.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>