Partager via


Résoudre les problèmes d’approvisionnement de BMM dans le cluster Azure Operator Nexus

Dans le cadre de l’action de déploiement du cluster, les BMM (matériel nu) sont approvisionnées avec les rôles nécessaires pour participer au cluster. Ce document prend en charge la résolution des problèmes d’approvisionnement courants à l’aide d’Azure CLI, du portail Azure et du contrôleur BMC (contrôleur de gestion de la carte de base) du serveur. Pour la plateforme Azure Operator Nexus, le matériel serveur sous-jacent utilise le contrôleur d’accès à distance Dell intégré (iDRAC) en tant que contrôleur BMC. L’approvisionnement utilise l’interface PXE (Preboot eXecution Environment) pour charger le système d’exploitation sur la BMM.

Prérequis

  1. Installer la dernière version des extensions de l’interface CLI appropriées
  2. Collectez les informations suivantes :
    • ID d’abonnement (SUBSCRIPTION)
    • Nom du cluster (CLUSTER)
    • Groupe de ressources (CLUSTER_RG)
    • Groupe de ressources managées (CLUSTER_MRG)
  3. Effectuez une demande d’accès via votre abonnement pour exécuter les commandes d’extension CLI de NF (structure réseau) et de NC (cloud réseau) d’Azure Operator Nexus.
  4. Connectez-vous à Azure CLI, puis sélectionnez l’abonnement où le cluster est déployé.

Rôles BMM

Pour une référence SKU donnée, il existe des rôles obligatoires permettant de gérer et d’exploiter le cluster Kubernetes sous-jacent.

Les rôles suivants sont attribués aux ressources BMM (consultez Référence des rôles BMM) :

  • Control plane : BMM responsable de l’exécution des agents du plan de contrôle Kubernetes pour le cluster.
  • Management plane : BMM responsable de l’exécution des agents de plateforme, notamment les contrôleurs et les extensions.
  • Compute plane : BMM responsable de l’exécution des charges de travail réelles des tenants (locataires), notamment les clusters Kubernetes et les machines virtuelles.

Liste de l’état des BMM

Cette commande permet d’effectuer une opération list pour toutes les ressources bareMetalMachineName du groupe de ressources managées avec un état simple :

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

STATUS passe par les phases suivantes tout au long du processus d’approvisionnement des BMM (consultez État d’une BMM dans les concepts de calcul d’Azure Operator Nexus) :

Registering ->Preparing ->Inspecting ->Available ->Provisioning ->Provisioned

Ces phases sont définies comme suit :

Phase Actions
Registering Vérification de la connectivité du contrôleur BMC/des informations d’identification du contrôleur BMC, et ajout de la BMM au service d’approvisionnement.
Preparing Redémarrage de la BMM, réinitialisation du contrôleur BMC et vérification de l’état de l’alimentation.
Inspecting Mise à jour du microprogramme, application des paramètres du BIOS et configuration du stockage.
Available La BMM est prête à installer le système d’exploitation.
Provisioning Installation de l’image du système d’exploitation sur la BMM. Une fois le système d’exploitation installé, la BMM tente de rejoindre le cluster.
Provisioned La BMM a été correctement approvisionnée et jointe au cluster.
Deprovisioning Échec de l’approvisionnement de la BMM. Le service d’approvisionnement nettoie la ressource pour une nouvelle tentative.
Failed Échec de l’approvisionnement de la BMM, une récupération manuelle est nécessaire. Il ne reste plus de nouvelles tentatives à effectuer.

Dans n’importe quelle phase, l’état détaillé de la BMM est défini à Échec, et la phase est bloquée si l’un des événements suivants se produit :

  • Le contrôleur BMC n’est pas disponible
  • Le port réseau est hors service
  • Échec d’un composant matériel

Pour obtenir un état plus détaillé de la BMM :

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

Où la sortie est définie comme suit :

Sortie Définition
BMM_NAME Nom de la BMM
RSTATE État de participation au cluster (True,False).
PROV_STATE État d’approvisionnement (Succeeded,Failed).
STATUT État détaillé de l’approvisionnement (Registering,Preparing,Inspecting,Available,Provisioning,Provisioned,Deprovisioning,Failed).
STATUS_MSG Message détaillé sur l’état d’approvisionnement.
POWER_STATE État d’alimentation de la BMM (On,Off).
BMM_ROLE Rôle de la BMM dans le cluster (control-plane,management-plane,compute-plane).
CREATE_DATE Date de création de la BMM.

Par exemple :

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

Détails de la BMM

Pour afficher les détails et l’état d’une seule BMM :

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

Pour obtenir des détails spécifiques à la résolution des problèmes de la BMM :

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Résolution des problèmes liés à un état d’approvisionnement défaillant

Les conditions suivantes peuvent entraîner des échecs d’approvisionnement :

Type d’erreur Résolution
BMC affiche l’erreur critique Backplane Comm. 1) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 2) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 3) Exécutez l’action de BMM replace.
Aucune réponse aux données réseau à partir du contrôleur BMC durant le démarrage (PXE). 1) Réinitialisez le port sur l’appareil de structure. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace.
Incompatibilité d’adresses MAC durant le démarrage (PXE). 1) Validez les données d’adresse MAC de la BMM par rapport aux données du contrôleur BMC. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace.
Incompatibilité d’adresse MAC du contrôleur BMC 1) Validez les données d’adresse MAC de la BMM par rapport aux données du contrôleur BMC. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace.
Réponse aux données de disque vide en provenance du contrôleur BMC. 1) Retirez/remplacez le disque. 2) Retirez/remplacez le contrôleur de stockage. 3) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 4) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 5) Exécutez l’action de BMM replace.
BMC inaccessible. 1) Réinitialisez le port sur l’appareil de structure. 2) Retirez/remplacez le câble. 3) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 4) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 5) Exécutez l’action de BMM replace.
Échec de connexion du contrôleur BMC. 1) Mettez à jour les informations d’identification sur le contrôleur BMC. 2) Exécutez l’action de BMM replace.
Erreurs critiques liées à la mémoire, au processeur et à l’OEM sur le contrôleur BMC. 1) Résolvez le problème matériel par retrait/remplacement. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace.
Console bloquée au niveau du menu du chargeur de démarrage (GRUB). 1) Exécutez une réinitialisation de la NVRAM. 2) Exécutez l’action de BMM replace.

Journal d’activité de BMM Azure

  1. Connectez-vous au portail Azure.
  2. Recherchez le nom de la BMM dans la zone Search située en haut.
  3. Sélectionnez Bare Metal Machine (Operator Nexus) dans les résultats de la recherche.
  4. Sélectionnez Activity log dans le menu de gauche.
  5. Vérifiez que Timespan englobe la période d’approvisionnement.
  6. Développez l’opération BareMetalMachines_Update, puis sélectionnez celles qui affichent l’état Failed.
  7. Sélectionnez l’onglet JSON pour obtenir le message d’état détaillé.

Recherchez les échecs liés à des informations d’identification non valides ou à l’indisponibilité du contrôleur BMC.

Déterminer l’adresse IPv4 du contrôleur BMC

L’adresse IPv4 du contrôleur BMC (BMC_IP) se trouve dans la valeur Connect retournée à partir de la section BMM Details précédente.

Valider l’adresse MAC de la BMM en fonction des données du contrôleur BMC

Pour obtenir les informations d’adresse MAC de la BMM :

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Vérifiez les données d’adresse MAC en les comparant aux données du contrôleur BMC via l’IU WEB : BMC ->Dashboard - Affiche l’adresse MAC du contrôleur BMC BMC ->System Info ->Network ->Embedded.1-1-1 - Affiche l’adresse MAC de démarrage

Vérifiez l’adresse MAC en utilisant racadm à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Si l’adresse MAC fournie au cluster est incorrecte, utilisez l’action de BMM replace décrite dans Actions de BMM pour corriger les adresses.

Effectuer un test ping de la connectivité du contrôleur BMC

Tentez d’effectuer un test ping sur l’adresse IPv4 du contrôleur BMC :

  1. Obtenez l’adresse IPv4 (BMC_IP) à partir du précédent Determine BMC IPv4 address.

  2. Effectuez un test ping à destination du contrôleur BMC :

    Pour effectuer un test à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :

    ping $BMC_IP -c 3
    

    Pour effectuer un test à partir d’un hôte de plan de contrôle de BMM via Azure CLI :

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

Réinitialiser le port sur l’appareil de structure

Si l’adresse IPv4 (BMC_IP) ne répond pas, une réinitialisation du port de l’appareil de structure redéclenche la négociation automatique sur le port, et peut le remettre en ligne.

Pour rechercher le port Network Fabric à partir d’Azure :

  1. Obtenez le RackID et le RackSlot de la section BMM Details précédente.

  2. Dans le portail Azure, descendez dans la hiérarchie jusqu’au RackID Network Rack de la BMM.

  3. Sélectionnez l’onglet Network Devices et le commutateur de gestion (Mgmt) du rack.

  4. Sous Resources, sélectionnez Network Interfaces, puis l’interface de BMC (iDRAC) ou l’interface de démarrage (PXE) du port qui nécessite une réinitialisation.

    Collectez les informations suivantes :

    • Groupe de ressources de structure réseau (NF_RG)
    • Nom de l’appareil (NF_DEVICE_NAME)
    • Nom de l’interface (NF_DEVICE_INTERFACE_NAME)
  5. Réinitialisez le port :

    Pour réinitialiser le port à l’aide d’Azure CLI :

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INERFACE_NAME --state Enable
    

Réinitialisation électrique à distance de la BMM (vidage de l’électricité résiduelle)

Effectuez un vidage à distance de l’électricité résiduelle de la BMM via l’IU du contrôleur BMC : BMC ->Configuration ->BIOS Settings ->Miscellaneous Settings ->Select "Full Power Cycle" under Power Cycle Request ->Apply and reboot

Effectuez un vidage à distance de l’électricité résiduelle en utilisant racadm à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

Réinitialisation électrique physique de la BMM (vidage de l’électricité résiduelle)

Pour permettre un vidage physique de l’électricité résiduelle, le personnel présent sur le site local déconnecte physiquement les câbles d’alimentation des deux adaptateurs d’alimentation pendant 5 minutes, puis rétablit l’alimentation. Ce processus permet de vérifier que le serveur, les condensateurs et tous les composants sont complètement mis hors tension, et que toutes les données en cache sont effacées.

Réinitialiser la NVRAM

En cas d’échec de l’approvisionnement en raison d’une erreur OEM ou matérielle, la séquence de démarrage peut être verrouillée dans la NVRAM sur PXE boot au lieu d’afficher hdd ou hard drive en premier dans l’ordre de démarrage.

Cette situation montre généralement la BMM à l’étape du chargeur de démarrage sur la console, et est bloquée en l’absence d’intervention manuelle via une frappe au clavier.

Pour réinitialiser la NVRAM, utilisez la séquence suivante dans l’IU du contrôleur BMC : Maintenance ->Diagnostics ->Reset iDrac to Factory Defaults ->Discard All Settings, but preserve user and network settings ->Apply and reboot

Réinitialiser le mot de passe du contrôleur BMC

Si le journal d’activité indique des informations d’identification non valides sur le contrôleur BMC, exécutez la commande suivante à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Réintégration de serveurs dans le cluster après une réparation

Une fois le matériel réparé, exécutez l’action de BMM replace en suivant les instructions de la page Actions de BMM.

Si vous avez toujours des questions, contactez le support. Pour plus d’informations sur les plans de support, consultez les plans de support Azure.