Řešení potíží se serverem Nexus operátora Azure

Článek
12/18/2024

Tento článek popisuje, jak řešit potíže se serverem pomocí restartování, opětovného sestavení a nahrazení akcí na holých počítačích Azure Operator Nexus. Tyto akce možná budete muset provést na serveru z důvodů údržby, což způsobí krátké přerušení konkrétních BMM.

Doba potřebná k dokončení každé z těchto akcí je podobná. Restartování je nejrychlejší, zatímco nahrazení trvá trochu déle. Všechny tři akce jsou jednoduché a efektivní metody pro řešení potíží.

Upozornění

Neprovádějte žádnou akci se servery pro správu bez první konzultace s pracovníky podpory Microsoftu. To by mohlo ovlivnit integritu clusteru Operátor Nexus.

Požadavky

Seznamte se s možnostmi odkazovanými v tomto článku tím , že si prohlédněte akce BMM.
Shromážděte následující informace:
- Název spravované skupiny prostředků pro BMM
- Název nástroje BMM, který vyžaduje operaci správy životního cyklu
- Subscription ID

Důležité

Rušivé požadavky příkazů na uzel řídicí roviny Kubernetes (KCP) jsou odmítnuty, pokud je na jiném uzlu KCP spuštěn jiný příkaz rušivé akce nebo pokud není k dispozici úplný KCP.

Restartování, opětovné vytvoření a nahrazení se považují za rušivé akce.

Tato kontrola se provádí, aby se zachovala integrita instance Nexus a zajistilo, že se kvůli souběžným rušivým akcím nespustí více uzlů KCP najednou. Pokud dojde ke snížení počtu uzlů, rozdělí se prahová hodnota kvora v pořádku řídicí roviny Kubernetes.

Identifikace opravné akce

Při řešení potíží s nástrojem BMM při selhání a určení nejvhodnější nápravné akce je nezbytné porozumět dostupným možnostem. Restartování nebo opětovné vytvoření nástroje BMM může být efektivní a efektivní pro řešení problémů nebo obnovení softwaru do známého dobrého stavu. V případech, kdy na serveru selže jedna nebo více hardwarových komponent, může být nutné zcela nahradit nástroj BMM. Tento článek popisuje osvědčené postupy pro každou z těchto tří akcí.

Řešení technických problémů vyžaduje systematický přístup. Jednou efektivní metodou je začít s nejméně invazivním roztokem a v případě potřeby pracovat na složitějších a drastických opatřeních.

Prvním krokem při řešení potíží je pokus o restartování zařízení nebo systému. Restartování může pomoct vyčistit všechny dočasné chyby nebo chyby, které můžou způsobovat problém.

Pokud restartování problém nevyřeší, dalším krokem je zkusit znovu vytvořit zařízení nebo systém.

Pokud reimaging problém nevyřeší, posledním krokem je nahrazení vadné hardwarové komponenty. I když je nahrazení důležitějším měřítkem, může být nutné, pokud problém vychází z chyby hardwaru.

Mějte na paměti, že tyto metody řešení potíží nemusí být vždy efektivní a jiné faktory, které hrají, můžou vyžadovat jiný přístup.

Řešení potíží s akcí restartování

Restartování BMM je proces restartování serveru prostřednictvím jednoduchého volání rozhraní API. Tato akce může být užitečná při řešení potíží, když virtuální počítače tenanta na hostiteli nereagují nebo jsou jinak zablokované.

Restartování je obvykle výchozím bodem pro zmírnění problému.

Následující příkaz Azure CLI použije power-off zadaný bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Následující příkaz Azure CLI použije start zadaný bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Následující příkaz Azure CLI použije restart zadaný bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Řešení potíží s akcí opětovného vytvoření image

Opětovné nasazení nástroje BMM je proces, který použijete k opětovnému nasazení image na disk s operačním systémem, aniž by to mělo vliv na data tenanta. Tato akce provede kroky pro opětovné připojení clusteru se stejnými identifikátory.

Akce opětovného sestavení může být užitečná pro řešení problémů obnovením operačního systému do známého funkčního stavu. Mezi běžné příčiny, které je možné vyřešit opětovným nastavením, patří obnovení z důvodu pochybností o integritě hostitele, podezření nebo potvrzeného ohrožení zabezpečení nebo aktivitě zápisu break glass.

Akce opětovného vytvoření je osvědčeným postupem pro nejnižší provozní riziko, aby se zajistila integrita nástroje BMM.

Osvědčeným postupem je před spuštěním příkazu reimage vyprázdnit úlohy BMM pomocí příkazu cordon s evakuací True.

Pokud chcete zjistit, jestli některé úlohy aktuálně běží v nástroji BMM, spusťte následující příkaz:

Pro virtuální počítače:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Pro uzly clusteru Nexus Kubernetes: (vyžaduje přihlášení ke clusteru Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Následující příkaz Azure CLI použije cordon zadaný bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Následující příkaz Azure CLI použije reimage zadaný bareMetalMachineName.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Následující příkaz Azure CLI použije uncordon zadaný bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Řešení potíží s akcí nahrazení

Servery obsahují mnoho fyzických komponent, které můžou převzít služby při selhání v průběhu času. Je důležité pochopit, které fyzické opravy vyžadují nahrazení BMM a kdy se doporučuje nahrazení BMM.

Vyvolá se proces ověření hardwaru, který zajistí integritu fyzického hostitele před nasazením image operačního systému. Podobně jako akce opětovného vytvoření image se data tenanta během výměny nezmění.

Důležité

Počínaje verzí rozhraní GA API z 2024-07-01 se řadič RAID resetuje během výměny BMM a vymaže všechna data z virtuálních disků serveru. Výstrahy virtuálního disku řadiče pro správu základní desky aktivované během nahrazení nástrojem BMM je možné ignorovat, pokud neexistují další výstrahy kontrolerů fyzického disku nebo řadičů RAID.

Osvědčeným postupem je nejprve vydat cordon příkaz k odebrání holého počítače z plánování úloh a vypnutí nástroje BMM před fyzickými opravami.

Následující příkaz Azure CLI použije cordon zadaný bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Když provádíte opravu fyzického vyměnitelného napájecího zdroje za provozu, není potřeba provést akci nahrazení, protože hostitel BMM bude po opravě dál normálně fungovat.

Při provádění následujících fyzických oprav doporučujeme akci nahrazení, i když není nutné vrátit nástroj BMM zpět do provozu:

Procesor
Dvouřádkové paměťové moduly (DIMM)
Fanoušek
Expanzní deskový zvedač
Vysílač s přijímačem
Výměna ethernetového nebo optického kabelu

Při provádění následujících fyzických oprav se k vrácení nástroje BMM zpět do provozu vyžaduje akce nahrazení:

Propojovací rovina
Systémová deska
Disk SSD
Adaptér PERC/RAID
Síťová karta Mellanox (NIC)
Integrovaná síťová karta Broadcom

Po dokončení fyzických oprav proveďte akci nahrazení.

Následující příkaz Azure CLI použije replace zadaný bareMetalMachineName.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

Následující příkaz Azure CLI zruší opravy zadaného bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Shrnutí

Restartování, opětovné nahrazování a nahrazování jsou efektivní metody řešení potíží, které můžete použít k řešení technických problémů. Je však důležité mít systematický přístup a zvážit další faktory, než vyzkoušíte nějaká drastická opatření. Další podrobnosti o akcích BMM najdete v článku akcí BMM.

Pokud máte stále dotazy, obraťte se na podporu. Další informace o plánech podpory najdete v tématu Plány podpory Azure.

Sdílet prostřednictvím