次の方法で共有


Azure Operator Nexus クラスター内の BMM プロビジョニングをトラブルシューティングする

クラスター デプロイ アクションの一部として、ベア メタル マシン (BMM) は、クラスターに参加するために必要なロールと共にプロビジョニングされます。 このドキュメントは、Azure CLI、Azure portal、サーバーのベースボード管理コントローラー (BMC) を使用して、一般的なプロビジョニングの問題のトラブルシューティングをサポートしています。 Azure Operator Nexus プラットフォームの場合、基になるサーバー ハードウェアは、統合された Dell リモート アクセス コントローラー (iDRAC) を BMC として使用します。 プロビジョニングでは、プリブート実行環境 (PXE) インターフェイスを使用して BMM にオペレーティング システム (OS) を読み込みます。

前提条件

  1. 適切な CLI 拡張機能の最新バージョンをインストールします。
  2. 次の情報を収集します。
    • サブスクリプション ID (SUBSCRIPTION)
    • クラスター名 (CLUSTER)
    • リソース グループ (CLUSTER_RG)
    • 管理対象リソース グループ (CLUSTER_MRG)
  3. Azure Operator Nexus ネットワーク ファブリック (NF) およびネットワーク クラウド CLI 拡張コマンドを実行するためのサブスクリプション アクセスを要求します。
  4. Azure CLI にサインインし、クラスターがデプロイされているサブスクリプションを選択します。

BMM ロール

特定のバージョンでは、基になる Kubernetes クラスターを管理および操作するためのロールが必要です。

BMM リソースには次のロールが割り当てられます (BMM ロール リファレンスを参照)。

  • コントロール プレーン: クラスターの Kubernetes コントロール プレーン エージェントを実行する BMM。
  • 管理プレーン: プラットフォーム エージェント (コントローラーと拡張機能を含む) を実行する BMM。
  • コンピューティング プレーン: 実際のテナント ワークロード (Kubernetes クラスターと仮想マシンを含む) を実行する BMM。

BMM の状態を一覧表示する

次のコマンドは、管理対象リソース グループ内のすべての bareMetalMachineName リソースを単純な状態で一覧表示します。

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

STATUS プロセスは、BMM プロビジョニング プロセスで次の表に定義されているフェーズを経由します (Azure Operator Nexus コンピューティングの概念における BMM の状態に関するページ を参照)。

フェーズ アクション
Registering BMC 接続/BMC 資格情報を確認し、プロビジョニング サービスに BMM を追加します。
Preparing BMM を再起動し、BMC をリセットして、電源の状態を確認します。
Inspecting ファームウェアを更新し、BIOS 設定を適用して、ストレージを構成します。
Available BMM が OS をインストールする準備ができていることを示します。
Provisioning OS イメージが BMM にインストール中であることを示します。 OS がインストールされた後、BMM はクラスターに参加しようとします。
Provisioned BMM が正常にプロビジョニングされ、クラスターに参加していることを示します。
Deprovisioning BMM プロビジョニングに失敗したことを示します。 プロビジョニング サービスは、再試行のためにリソースをクリーンアップします。
Failed BMM プロビジョニングに失敗し、手動の回復が必要であることを示します。 すべての再試行が使い果たされています。

どのフェーズでも、BMM の詳細な状態は Failed に設定されています。 次のいずれかの中断が発生した場合、そのフェーズはブロックされます。

  • BMC が使用できない。
  • ネットワーク ポートが停止している。
  • ハードウェア コンポーネントが故障している。

BMM のより詳細な状態を取得するには:

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

次の表は、出力が定義されている場所の一覧を示しています。

出力 Definition
BMM_NAME BMM 名。
RSTATE クラスター参加状態 (TrueFalse)。
PROV_STATE プロビジョニング状態 (SucceededFailed)。
STATUS プロビジョニングの詳細な状態 (RegisteringPreparingInspectingAvailableProvisioningProvisionedDeprovisioningFailed)。
STATUS_MSG プロビジョニングの詳細な状態メッセージ。
POWER_STATE BMMの電源状態 (OnOff)。
BMM_ROLE BMM クラスター ロール (control-planemanagement-planecompute-plane)。
CREATE_DATE BMM の作成日。

次に例を示します。

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

BMM の詳細

1 つの BMM の詳細と状態を表示するには:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

トラブルシューティングに固有の BMM の詳細:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

失敗したプロビジョニング状態をトラブルシューティングする

プロビジョニングの失敗は、次の条件によって発生する場合があります。

エラーの種類 解決方法
BMC で Backplane Comm の重大なエラーがある。 1.BMM リモート flea ドレインを実行します。
2.BMM 物理 flea ドレインを実行します。
3.BMM replace アクションを実行します。
BMC からブート (PXE) ネットワーク データ応答が空。 1.ファブリック デバイスでポートをリセットします。
2.BMM リモート flea ドレインを実行します。
3.BMM 物理 flea ドレインを実行します。
4.BMM replace アクションを実行します。
ブート (PXE) MAC アドレスの不一致。 1.BMM MAC アドレス データを BMC データに対して検証します。
2.BMM リモート flea ドレインを実行します。
3.BMM 物理 flea ドレインを実行します。
4.BMM replace アクションを実行します。
BMC MAC アドレスの不一致。 1.BMM MAC アドレス データを BMC データに対して検証します。
2.BMM リモート flea ドレインを実行します。
3.BMM 物理 flea ドレインを実行します。
4.BMM replace アクションを実行します。
BMC からのディスク データ応答が空。 1.ディスクを取り外すか、または交換します。
2.ストレージ コントローラーを取り外すか、または交換します。
3.BMM リモート flea ドレインを実行します。
4.BMM 物理 flea ドレインを実行します。
5.BMM replace アクションを実行します。
BMC に到達できない。 1.ファブリック デバイスでポートをリセットします。
2.ケーブルを取り外すか、または交換します。
3.BMM リモート flea ドレインを実行します。
4.BMM 物理 flea ドレインを実行します。
5.BMM replace アクションを実行します。
BMC がサインインに失敗した。 1.BMC で資格情報を更新します。
2.BMM replace アクションを実行します。
BMC のメモリ、CPU、OEM 重大エラー。 1.取り外しまたは交換でハードウェアの問題を解決します。
2.BMM リモート flea ドレインを実行します。
3.BMM 物理 flea ドレインを実行します。
4.BMM replace アクションを実行します。
ブート ローダー (GRUB) メニューでコンソールがスタック。 1.NVRAM リセットを実行します。
2.BMM replace アクションを実行します。

Azure BMM アクティビティ ログ

  1. Azure portal にサインインします。
  2. 上部の [検索] ボックスで BMM 名を検索します。
  3. 検索結果から [ベア メタル マシン (Operator Nexus)] の名前を選択します。
  4. サービス メニューで、[アクティビティ ログ] を選択します。
  5. [期間] 値にプロビジョニング期間が含まれていることを確認します。
  6. BareMetalMachines_Update 操作を展開し、Failed 状態を示す任意の BMM を選択します。
  7. [JSON] タブを選択して、詳細なステータス メッセージを取得します。

BMC が使用できない場合は、無効な資格情報に関連するエラーを探します。

BMC IPv4 アドレスを決定する

BMC の IPv4 アドレス (BMC_IP) は、前のセクション「BMM の詳細」から返された Connect 値に含まれています。

BMM の MAC アドレスを BMC データに対して検証する

BMM から MAC アドレス情報を取得するには:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Web UI を使用して、MAC アドレス データを BMC に対して確認します。

  • BMC>Dashboard: BMC MAC アドレスが表示されます。
  • BMC>System Info>Network>Embedded.1-1-1: ブート MAC アドレスが表示されます。

BMC ネットワークにアクセスできるジャンプボックスから、MAC アドレスが racadm を使用していることを確認します。

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

クラスターに指定された MAC アドレスが正しくない場合は、BMM アクションで BMM replace アクションを使用してアドレスを修正します。

BMC 接続の Ping テスト

BMC IPv4 アドレスに対して ping コマンドの実行を試みます。

  1. 前のセクション「BMC IPv4 アドレスを決定する」から IPv4 アドレス (BMC_IP) を取得します。

  2. BMC への ping をテストします。

    BMC ネットワークにアクセスできるジャンプボックスからテストするには:

    ping $BMC_IP -c 3
    

    Azure CLI を使用して BMM コントロール プレーン ホストからテストするには:

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

ファブリック デバイスでポートをリセットする

BMC_IP が応答しない場合は、ファブリック デバイス ポートのリセットによってそのポート上の自動ネゴシエーションが再トリガーされるため、オンラインに戻る可能性があります。

Azure から Network Fabric ポートを検索するには:

  1. 前のセクション「BMM の詳細」から RackIDRackSlot の値を取得します。

  2. Azure portal で、BMM の [ネットワーク ラック] ラック ID までドリルダウンします。

  3. [ネットワーク デバイス] タブを選択してから、ラックの管理 (Mgmt) スイッチを選択します。

  4. [リソース] で、[ネットワーク インターフェイス] を選択します。 次に、リセットが必要なポートの BMC (iDRAC) またはブート (PXE) インターフェイスを選択します。

    次の情報を収集します。

    • ネットワーク ファブリック リソース グループ (NF_RG)
    • デバイス名 (NF_DEVICE_NAME)
    • インターフェイス名 (NF_DEVICE_INTERFACE_NAME)
  5. ポートをリセットします。

    Azure CLI を使用してポートをリセットするには:

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

BMM リモート パワー ドレイン (flea ドレイン)

BMC UI を使用して BMM に対してリモート flea ドレインを実行するには:

  1. [BMC]>[構成]>[BIOS 設定]>[その他の設定] の順に選択します。

  2. [電源サイクル要求] で、[完全な電源サイクル] を選択します。 次に、[適用して再起動] を選択します。

BMC ネットワークにアクセスできるジャンプボックスから、racadm を使用してリモート flea ドレインを実行します。

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

BMM 物理パワー ドレイン (flea ドレイン)

物理 flea ドレインの場合は、ローカル サイト側で電源ケーブルを両方の電源アダプターから 5 分間物理的に切り離してから、電源を復元します。 このプロセスにより、サーバー、コンデンサー、すべてのコンポーネントの電源が完全に切り離され、すべてのキャッシュ データが確実にクリアされます。

NVRAM のリセット

OEM またはハードウェア エラーのためにプロビジョニングに失敗した場合は、ブート順に hdd または hard drive が最初に表示されるのではなく、NVRAM でブート シーケンスが PXE boot にロックされている可能性があります。

この状態は、通常、本体のブートローダー ステージで BMM を示し、手動のキーストローク介入なしでブロックされます。

NVRAM をリセットするには、BMC UI で次のシーケンスを使用します。

  1. [メンテナンス]>[診断]>[iDrac を工場出荷時の既定値にリセットする] の順に選択します。

  2. [すべての設定を破棄するが、ユーザーとネットワークの設定は保持する] を選択してから、[適用して再起動] を選択します。

BMC パスワードをリセットする

アクティビティ ログに BMC の無効な資格情報が示されている場合は、BMC ネットワークにアクセスできるジャンプボックスから次のコマンドを実行します。

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

修復後にサーバーをクラスターに戻す

ハードウェアが修正されたら、「ベア メタル マシンのライフサイクルを管理する」の手順に従って BMM replace アクションを実行します。