共用方式為


對 AAzure 運算子連接點伺服器問題進行疑難排解

本文說明如何使用重新啟動、重新安裝映像和取代 Azure 操作員 Nexus 裸機機器 (BMM) 上的動作,針對伺服器問題進行疑難解答。 您可能會為了進行維護而需在伺服器上執行這些動作,而這會導致特定 BMM 短暫中斷。

完成前述各項動作的所需時間都差不多。 重新啟動是最快的,而更換需要較長一點的時間。 這三個動作都是簡單且有效率的疑難排解方法。

警告

若未先諮詢 Microsoft 支援服務人員,請勿對管理伺服器執行任何動作。 這樣做可能會影響運算子連接點叢集的完整性。

必要條件

  • 檢閱 BMM 動作,以熟悉本文所參考的功能。
  • 收集以下資訊:
    • BMM 的受控資源群組名稱
    • 需要生命週期管理作業的 BMM 名稱
    • 訂用帳戶識別碼

重要

如果已針對另一個 KCP 節點執行另一個干擾性動作命令,或如果無法使用完整 KCP,則會拒絕針對 Kubernetes 控制平面 (KCP) 節點的干擾性命令要求。

重新啟動、重新安裝映像和取代全都被視為干擾性動作。

這項檢查是為了維護 Nexus 實例的完整性,並確保多個 KCP 節點不會因為同時干擾性動作而一次關閉。 如果多個節點關閉,其會中斷 Kubernetes 控制平面的良好仲裁閾值。

識別矯正措施

針對失敗的 BMM 進行疑難解答並判斷最適當的更正動作時,請務必瞭解可用的選項。 重新啟動或重新製作 BMM 的映像,對於解決問題或將軟體還原為已知良好的狀態,可能既有效又有效。 如果伺服器上的一或多個硬體元件失敗,可能需要完全取代 BMM。 本文概述這三個動作的最佳做法。

要對技術問題進行疑難排解,需仰賴系統化方法。 一個有效的方法是從最不具侵入性的解決方案開始,並在必要時達到更複雜的和劇烈措施。

疑難解答的第一個步驟是嘗試重新啟動裝置或系統。 重新啟動有助於清除任何可能造成問題的暫時故障或錯誤。

如果重新啟動無法解決問題,下一個步驟是嘗試重新映像裝置或系統。

如果重新映像無法解決問題,最後一個步驟是取代故障的硬體元件。 雖然更換是一項更顯著的量值,但如果問題源於硬體缺陷,則可能是必要措施。

請記住,這些疑難排解方法可能不一定有效,且問題的其他成因可能需要以不同的方法解決。

使用重新啟動動作進行疑難排解

重新啟動 BMM,是透過簡單的 API 呼叫重新啟動伺服器的程序。 當主機上的租用戶虛擬機器沒有回應或停滯時,可以利用此動作來排解問題。

重新啟動通常是減輕問題的起點。

下列 Azure CLI 命令會 power-off 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

下列 Azure CLI 命令會 start 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

下列 Azure CLI 命令會 restart 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

使用重新安裝映像動作進行疑難排解

重新映像 BMM 是您用來在 OS 磁碟上重新部署映像的程式,而不會影響租用戶數據。 此動作會執行相關步驟,使用相同的識別碼重新加入叢集。

重新安裝映像動作可將 OS 還原至已知良好的工作狀態,以利排解問題。 可透過重新安裝映像來解決的常見問題成因,包括因懷疑主機完整性、疑似或確認有安全性危害,或「緊急」寫入活動而導致的復原。

若要以最低的作業風險確保 BMM 的完整性,重新安裝映像動作是最佳做法。

最佳做法是,在執行重新安裝映像命令之前,請確定 BMM 的工作負載已使用警戒線命令清空,並疏散 “True”。

若要識別 BMM 上是否有任何工作負載目前正在執行,請執行下列命令:

針對 虛擬機器:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

針對 Nexus Kubernetes 叢集節點:(需要登入 Nexus Kubernetes 叢集)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

下列 Azure CLI 命令會 cordon 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

下列 Azure CLI 命令會 reimage 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

下列 Azure CLI 命令會 uncordon 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

使用更換動作進行疑難排解

伺服器包含許多可能隨著時間推移而故障的實體元件。 請務必瞭解哪些實體修復需要 BMM 更換,以及建議使用 BMM 更換時。

系統會叫用硬體驗證程序,以在部署 OS 映像之前確保實體主機的完整性。 如同重新安裝映像動作,在更換期間不會修改租用戶資料。

重要

從 2024-07-01 GA API 版本開始,RAID 控制器會在 BMM 取代期間重設,並抹除伺服器虛擬磁碟中的所有數據。 除非有額外的實體磁碟和/或 RAID 控制器警示,否則可以在 BMM 更換期間觸發的基板管理控制器 (BMC) 虛擬磁碟警示被忽略。

最佳做法是先發出 cordon 命令,以從工作負載排程中移除裸機機器,然後在實體修復之前關閉 BMM。

下列 Azure CLI 命令會 cordon 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

當您執行實體熱交換電源供應器修復時,不需要更換動作,因為 BMM 主機在修復後會繼續正常運作。

當您執行下列實體修復時,建議您執行更換動作,不過不需要將 BMM 帶回服務:

  • CPU
  • 雙內嵌記憶體模組 (DIMM)
  • 風扇
  • 擴充板擴充卡
  • 收發器
  • 乙太網路或光纖纜線更換

當您執行下列實體修復時,需要更換動作,才能讓 BMM 恢復服務:

  • 背板
  • 主機板
  • SSD 磁碟
  • PERC/RAID 介面卡
  • Mellanox 網路配接器 (NIC)
  • Broadcom 內嵌 NIC

實體修復完成後,請執行取代動作。

下列 Azure CLI 命令會 replace 是指定的 bareMetalMachineName。

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

下列 Azure CLI 命令會取消記錄指定的 bareMetalMachineName。

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

摘要

重新啟動、重新安裝映像和更換是可用來解決技術問題的有效疑難排解方法。 不過,在嘗試任何激進的措施之前,請務必先擬定系統化方法,並考量其他因素。 如需 BMM 動作的詳細資訊,請參閱 BMM 動作 一文。

如果還有疑問,請連絡支援人員。 如需支援計劃的詳細資訊,請參閱 Azure 支援計劃