Azure Operator Nexus クラスター内の BMM プロビジョニングをトラブルシューティングする
クラスター デプロイ アクションの一部として、ベア メタル マシン (BMM) は、クラスターに参加するために必要なロールと共にプロビジョニングされます。 このドキュメントは、Azure CLI、Azure portal、サーバーのベースボード管理コントローラー (BMC) を使用して、一般的なプロビジョニングの問題のトラブルシューティングをサポートしています。 Azure Operator Nexus プラットフォームの場合、基になるサーバー ハードウェアは、統合された Dell リモート アクセス コントローラー (iDRAC) を BMC として使用します。 プロビジョニングでは、プリブート実行環境 (PXE) インターフェイスを使用して BMM にオペレーティング システム (OS) を読み込みます。
前提条件
- 適切な CLI 拡張機能の最新バージョンをインストールします。
- 次の情報を収集します。
- サブスクリプション ID (
SUBSCRIPTION
) - クラスター名 (
CLUSTER
) - リソース グループ (
CLUSTER_RG
) - 管理対象リソース グループ (
CLUSTER_MRG
)
- サブスクリプション ID (
- Azure Operator Nexus ネットワーク ファブリック (NF) およびネットワーク クラウド CLI 拡張コマンドを実行するためのサブスクリプション アクセスを要求します。
- Azure CLI にサインインし、クラスターがデプロイされているサブスクリプションを選択します。
BMM ロール
特定のバージョンでは、基になる Kubernetes クラスターを管理および操作するためのロールが必要です。
BMM リソースには次のロールが割り当てられます (BMM ロール リファレンスを参照)。
- コントロール プレーン: クラスターの Kubernetes コントロール プレーン エージェントを実行する BMM。
- 管理プレーン: プラットフォーム エージェント (コントローラーと拡張機能を含む) を実行する BMM。
- コンピューティング プレーン: 実際のテナント ワークロード (Kubernetes クラスターと仮想マシンを含む) を実行する BMM。
BMM の状態を一覧表示する
次のコマンドは、管理対象リソース グループ内のすべての bareMetalMachineName
リソースを単純な状態で一覧表示します。
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
STATUS
プロセスは、BMM プロビジョニング プロセスで次の表に定義されているフェーズを経由します (Azure Operator Nexus コンピューティングの概念における BMM の状態に関するページ を参照)。
フェーズ | アクション |
---|---|
Registering |
BMC 接続/BMC 資格情報を確認し、プロビジョニング サービスに BMM を追加します。 |
Preparing |
BMM を再起動し、BMC をリセットして、電源の状態を確認します。 |
Inspecting |
ファームウェアを更新し、BIOS 設定を適用して、ストレージを構成します。 |
Available |
BMM が OS をインストールする準備ができていることを示します。 |
Provisioning |
OS イメージが BMM にインストール中であることを示します。 OS がインストールされた後、BMM はクラスターに参加しようとします。 |
Provisioned |
BMM が正常にプロビジョニングされ、クラスターに参加していることを示します。 |
Deprovisioning |
BMM プロビジョニングに失敗したことを示します。 プロビジョニング サービスは、再試行のためにリソースをクリーンアップします。 |
Failed |
BMM プロビジョニングに失敗し、手動の回復が必要であることを示します。 すべての再試行が使い果たされています。 |
どのフェーズでも、BMM の詳細な状態は Failed
に設定されています。 次のいずれかの中断が発生した場合、そのフェーズはブロックされます。
- BMC が使用できない。
- ネットワーク ポートが停止している。
- ハードウェア コンポーネントが故障している。
BMM のより詳細な状態を取得するには:
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
次の表は、出力が定義されている場所の一覧を示しています。
出力 | Definition |
---|---|
BMM_NAME |
BMM 名。 |
RSTATE |
クラスター参加状態 (True 、False )。 |
PROV_STATE |
プロビジョニング状態 (Succeeded 、Failed )。 |
STATUS |
プロビジョニングの詳細な状態 (Registering 、Preparing 、Inspecting 、Available 、Provisioning 、Provisioned 、Deprovisioning 、Failed )。 |
STATUS_MSG |
プロビジョニングの詳細な状態メッセージ。 |
POWER_STATE |
BMMの電源状態 (On 、Off )。 |
BMM_ROLE |
BMM クラスター ロール (control-plane 、management-plane 、compute-plane )。 |
CREATE_DATE |
BMM の作成日。 |
次に例を示します。
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
BMM の詳細
1 つの BMM の詳細と状態を表示するには:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
トラブルシューティングに固有の BMM の詳細:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
失敗したプロビジョニング状態をトラブルシューティングする
プロビジョニングの失敗は、次の条件によって発生する場合があります。
エラーの種類 | 解決方法 |
---|---|
BMC で Backplane Comm の重大なエラーがある。 |
1.BMM リモート flea ドレインを実行します。 2.BMM 物理 flea ドレインを実行します。 3.BMM replace アクションを実行します。 |
BMC からブート (PXE) ネットワーク データ応答が空。 | 1.ファブリック デバイスでポートをリセットします。 2.BMM リモート flea ドレインを実行します。 3.BMM 物理 flea ドレインを実行します。 4.BMM replace アクションを実行します。 |
ブート (PXE) MAC アドレスの不一致。 | 1.BMM MAC アドレス データを BMC データに対して検証します。 2.BMM リモート flea ドレインを実行します。 3.BMM 物理 flea ドレインを実行します。 4.BMM replace アクションを実行します。 |
BMC MAC アドレスの不一致。 | 1.BMM MAC アドレス データを BMC データに対して検証します。 2.BMM リモート flea ドレインを実行します。 3.BMM 物理 flea ドレインを実行します。 4.BMM replace アクションを実行します。 |
BMC からのディスク データ応答が空。 | 1.ディスクを取り外すか、または交換します。 2.ストレージ コントローラーを取り外すか、または交換します。 3.BMM リモート flea ドレインを実行します。 4.BMM 物理 flea ドレインを実行します。 5.BMM replace アクションを実行します。 |
BMC に到達できない。 | 1.ファブリック デバイスでポートをリセットします。 2.ケーブルを取り外すか、または交換します。 3.BMM リモート flea ドレインを実行します。 4.BMM 物理 flea ドレインを実行します。 5.BMM replace アクションを実行します。 |
BMC がサインインに失敗した。 | 1.BMC で資格情報を更新します。 2.BMM replace アクションを実行します。 |
BMC のメモリ、CPU、OEM 重大エラー。 | 1.取り外しまたは交換でハードウェアの問題を解決します。 2.BMM リモート flea ドレインを実行します。 3.BMM 物理 flea ドレインを実行します。 4.BMM replace アクションを実行します。 |
ブート ローダー (GRUB) メニューでコンソールがスタック。 | 1.NVRAM リセットを実行します。 2.BMM replace アクションを実行します。 |
Azure BMM アクティビティ ログ
- Azure portal にサインインします。
- 上部の [検索] ボックスで BMM 名を検索します。
- 検索結果から [ベア メタル マシン (Operator Nexus)] の名前を選択します。
- サービス メニューで、[アクティビティ ログ] を選択します。
- [期間] 値にプロビジョニング期間が含まれていることを確認します。
BareMetalMachines_Update
操作を展開し、Failed
状態を示す任意の BMM を選択します。- [JSON] タブを選択して、詳細なステータス メッセージを取得します。
BMC が使用できない場合は、無効な資格情報に関連するエラーを探します。
BMC IPv4 アドレスを決定する
BMC の IPv4 アドレス (BMC_IP
) は、前のセクション「BMM の詳細」から返された Connect
値に含まれています。
BMM の MAC アドレスを BMC データに対して検証する
BMM から MAC アドレス情報を取得するには:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Web UI を使用して、MAC アドレス データを BMC に対して確認します。
BMC
>Dashboard
: BMC MAC アドレスが表示されます。BMC
>System Info
>Network
>Embedded.1-1-1
: ブート MAC アドレスが表示されます。
BMC ネットワークにアクセスできるジャンプボックスから、MAC アドレスが racadm
を使用していることを確認します。
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
クラスターに指定された MAC アドレスが正しくない場合は、BMM アクションで BMM replace
アクションを使用してアドレスを修正します。
BMC 接続の Ping テスト
BMC IPv4 アドレスに対して ping
コマンドの実行を試みます。
前のセクション「BMC IPv4 アドレスを決定する」から IPv4 アドレス (
BMC_IP
) を取得します。BMC への
ping
をテストします。BMC ネットワークにアクセスできるジャンプボックスからテストするには:
ping $BMC_IP -c 3
Azure CLI を使用して BMM コントロール プレーン ホストからテストするには:
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
ファブリック デバイスでポートをリセットする
BMC_IP
が応答しない場合は、ファブリック デバイス ポートのリセットによってそのポート上の自動ネゴシエーションが再トリガーされるため、オンラインに戻る可能性があります。
Azure から Network Fabric
ポートを検索するには:
前のセクション「BMM の詳細」から
RackID
とRackSlot
の値を取得します。Azure portal で、BMM の [ネットワーク ラック] ラック ID までドリルダウンします。
[ネットワーク デバイス] タブを選択してから、ラックの管理 (Mgmt) スイッチを選択します。
[リソース] で、[ネットワーク インターフェイス] を選択します。 次に、リセットが必要なポートの BMC (iDRAC) またはブート (PXE) インターフェイスを選択します。
次の情報を収集します。
- ネットワーク ファブリック リソース グループ (
NF_RG
) - デバイス名 (
NF_DEVICE_NAME
) - インターフェイス名 (
NF_DEVICE_INTERFACE_NAME
)
- ネットワーク ファブリック リソース グループ (
ポートをリセットします。
Azure CLI を使用してポートをリセットするには:
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
BMM リモート パワー ドレイン (flea ドレイン)
BMC UI を使用して BMM に対してリモート flea ドレインを実行するには:
[BMC]>[構成]>[BIOS 設定]>[その他の設定] の順に選択します。
[電源サイクル要求] で、[完全な電源サイクル] を選択します。 次に、[適用して再起動] を選択します。
BMC ネットワークにアクセスできるジャンプボックスから、racadm
を使用してリモート flea ドレインを実行します。
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
BMM 物理パワー ドレイン (flea ドレイン)
物理 flea ドレインの場合は、ローカル サイト側で電源ケーブルを両方の電源アダプターから 5 分間物理的に切り離してから、電源を復元します。 このプロセスにより、サーバー、コンデンサー、すべてのコンポーネントの電源が完全に切り離され、すべてのキャッシュ データが確実にクリアされます。
NVRAM のリセット
OEM またはハードウェア エラーのためにプロビジョニングに失敗した場合は、ブート順に hdd
または hard drive
が最初に表示されるのではなく、NVRAM でブート シーケンスが PXE boot
にロックされている可能性があります。
この状態は、通常、本体のブートローダー ステージで BMM を示し、手動のキーストローク介入なしでブロックされます。
NVRAM をリセットするには、BMC UI で次のシーケンスを使用します。
[メンテナンス]>[診断]>[iDrac を工場出荷時の既定値にリセットする] の順に選択します。
[すべての設定を破棄するが、ユーザーとネットワークの設定は保持する] を選択してから、[適用して再起動] を選択します。
BMC パスワードをリセットする
アクティビティ ログに BMC の無効な資格情報が示されている場合は、BMC ネットワークにアクセスできるジャンプボックスから次のコマンドを実行します。
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
修復後にサーバーをクラスターに戻す
ハードウェアが修正されたら、「ベア メタル マシンのライフサイクルを管理する」の手順に従って BMM replace
アクションを実行します。
関連するコンテンツ
- さらに不明な点がある場合は、Azure サポートにお問い合わせください。
- サポート プランの詳細については、Azure のサポート プランに関するページを参照してください。