Résoudre les problèmes d’approvisionnement de BMM dans le cluster Azure Operator Nexus
Dans le cadre de l’action de déploiement du cluster, les BMM (matériel nu) sont approvisionnées avec les rôles nécessaires pour participer au cluster. Ce document prend en charge la résolution des problèmes d’approvisionnement courants à l’aide d’Azure CLI, du portail Azure et du contrôleur BMC (contrôleur de gestion de la carte de base) du serveur. Pour la plateforme Azure Operator Nexus, le matériel serveur sous-jacent utilise le contrôleur d’accès à distance Dell intégré (iDRAC) en tant que contrôleur BMC. L’approvisionnement utilise l’interface PXE (Preboot eXecution Environment) pour charger le système d’exploitation sur la BMM.
Prérequis
- Installer la dernière version des extensions de l’interface CLI appropriées
- Collectez les informations suivantes :
- ID d’abonnement (SUBSCRIPTION)
- Nom du cluster (CLUSTER)
- Groupe de ressources (CLUSTER_RG)
- Groupe de ressources managées (CLUSTER_MRG)
- Effectuez une demande d’accès via votre abonnement pour exécuter les commandes d’extension CLI de NF (structure réseau) et de NC (cloud réseau) d’Azure Operator Nexus.
- Connectez-vous à Azure CLI, puis sélectionnez l’abonnement où le cluster est déployé.
Rôles BMM
Pour une référence SKU donnée, il existe des rôles obligatoires permettant de gérer et d’exploiter le cluster Kubernetes sous-jacent.
Les rôles suivants sont attribués aux ressources BMM (consultez Référence des rôles BMM) :
Control plane
: BMM responsable de l’exécution des agents du plan de contrôle Kubernetes pour le cluster.Management plane
: BMM responsable de l’exécution des agents de plateforme, notamment les contrôleurs et les extensions.Compute plane
: BMM responsable de l’exécution des charges de travail réelles des tenants (locataires), notamment les clusters Kubernetes et les machines virtuelles.
Liste de l’état des BMM
Cette commande permet d’effectuer une opération list
pour toutes les ressources bareMetalMachineName
du groupe de ressources managées avec un état simple :
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Où STATUS
passe par les phases suivantes tout au long du processus d’approvisionnement des BMM (consultez État d’une BMM dans les concepts de calcul d’Azure Operator Nexus) :
Registering
->Preparing
->Inspecting
->Available
->Provisioning
->Provisioned
Ces phases sont définies comme suit :
Phase | Actions |
---|---|
Registering |
Vérification de la connectivité du contrôleur BMC/des informations d’identification du contrôleur BMC, et ajout de la BMM au service d’approvisionnement. |
Preparing |
Redémarrage de la BMM, réinitialisation du contrôleur BMC et vérification de l’état de l’alimentation. |
Inspecting |
Mise à jour du microprogramme, application des paramètres du BIOS et configuration du stockage. |
Available |
La BMM est prête à installer le système d’exploitation. |
Provisioning |
Installation de l’image du système d’exploitation sur la BMM. Une fois le système d’exploitation installé, la BMM tente de rejoindre le cluster. |
Provisioned |
La BMM a été correctement approvisionnée et jointe au cluster. |
Deprovisioning |
Échec de l’approvisionnement de la BMM. Le service d’approvisionnement nettoie la ressource pour une nouvelle tentative. |
Failed |
Échec de l’approvisionnement de la BMM, une récupération manuelle est nécessaire. Il ne reste plus de nouvelles tentatives à effectuer. |
Dans n’importe quelle phase, l’état détaillé de la BMM est défini à Échec, et la phase est bloquée si l’un des événements suivants se produit :
- Le contrôleur BMC n’est pas disponible
- Le port réseau est hors service
- Échec d’un composant matériel
Pour obtenir un état plus détaillé de la BMM :
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
Où la sortie est définie comme suit :
Sortie | Définition |
---|---|
BMM_NAME | Nom de la BMM |
RSTATE | État de participation au cluster (True ,False ). |
PROV_STATE | État d’approvisionnement (Succeeded ,Failed ). |
STATUT | État détaillé de l’approvisionnement (Registering ,Preparing ,Inspecting ,Available ,Provisioning ,Provisioned ,Deprovisioning ,Failed ). |
STATUS_MSG | Message détaillé sur l’état d’approvisionnement. |
POWER_STATE | État d’alimentation de la BMM (On ,Off ). |
BMM_ROLE | Rôle de la BMM dans le cluster (control-plane ,management-plane ,compute-plane ). |
CREATE_DATE | Date de création de la BMM. |
Par exemple :
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
Détails de la BMM
Pour afficher les détails et l’état d’une seule BMM :
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
Pour obtenir des détails spécifiques à la résolution des problèmes de la BMM :
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Résolution des problèmes liés à un état d’approvisionnement défaillant
Les conditions suivantes peuvent entraîner des échecs d’approvisionnement :
Type d’erreur | Résolution |
---|---|
BMC affiche l’erreur critique Backplane Comm . |
1) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 2) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 3) Exécutez l’action de BMM replace . |
Aucune réponse aux données réseau à partir du contrôleur BMC durant le démarrage (PXE). | 1) Réinitialisez le port sur l’appareil de structure. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace . |
Incompatibilité d’adresses MAC durant le démarrage (PXE). | 1) Validez les données d’adresse MAC de la BMM par rapport aux données du contrôleur BMC. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace . |
Incompatibilité d’adresse MAC du contrôleur BMC | 1) Validez les données d’adresse MAC de la BMM par rapport aux données du contrôleur BMC. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace . |
Réponse aux données de disque vide en provenance du contrôleur BMC. | 1) Retirez/remplacez le disque. 2) Retirez/remplacez le contrôleur de stockage. 3) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 4) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 5) Exécutez l’action de BMM replace . |
BMC inaccessible. | 1) Réinitialisez le port sur l’appareil de structure. 2) Retirez/remplacez le câble. 3) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 4) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 5) Exécutez l’action de BMM replace . |
Échec de connexion du contrôleur BMC. | 1) Mettez à jour les informations d’identification sur le contrôleur BMC. 2) Exécutez l’action de BMM replace . |
Erreurs critiques liées à la mémoire, au processeur et à l’OEM sur le contrôleur BMC. | 1) Résolvez le problème matériel par retrait/remplacement. 2) Effectuez un vidage à distance de l’électricité résiduelle de la BMM. 3) Effectuez un vidage physique de l’électricité résiduelle de la BMM. 4) Exécutez l’action de BMM replace . |
Console bloquée au niveau du menu du chargeur de démarrage (GRUB). | 1) Exécutez une réinitialisation de la NVRAM. 2) Exécutez l’action de BMM replace . |
Journal d’activité de BMM Azure
- Connectez-vous au portail Azure.
- Recherchez le nom de la BMM dans la zone
Search
située en haut. - Sélectionnez
Bare Metal Machine (Operator Nexus)
dans les résultats de la recherche. - Sélectionnez
Activity log
dans le menu de gauche. - Vérifiez que
Timespan
englobe la période d’approvisionnement. - Développez l’opération
BareMetalMachines_Update
, puis sélectionnez celles qui affichent l’étatFailed
. - Sélectionnez l’onglet
JSON
pour obtenir le message d’état détaillé.
Recherchez les échecs liés à des informations d’identification non valides ou à l’indisponibilité du contrôleur BMC.
Déterminer l’adresse IPv4 du contrôleur BMC
L’adresse IPv4 du contrôleur BMC (BMC_IP) se trouve dans la valeur Connect
retournée à partir de la section BMM Details
précédente.
Valider l’adresse MAC de la BMM en fonction des données du contrôleur BMC
Pour obtenir les informations d’adresse MAC de la BMM :
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Vérifiez les données d’adresse MAC en les comparant aux données du contrôleur BMC via l’IU WEB : BMC
->Dashboard
- Affiche l’adresse MAC du contrôleur BMC BMC
->System Info
->Network
->Embedded.1-1-1
- Affiche l’adresse MAC de démarrage
Vérifiez l’adresse MAC en utilisant racadm
à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Si l’adresse MAC fournie au cluster est incorrecte, utilisez l’action de BMM replace
décrite dans Actions de BMM pour corriger les adresses.
Effectuer un test ping de la connectivité du contrôleur BMC
Tentez d’effectuer un test ping sur l’adresse IPv4 du contrôleur BMC :
Obtenez l’adresse IPv4 (BMC_IP) à partir du précédent
Determine BMC IPv4 address
.Effectuez un test ping à destination du contrôleur BMC :
Pour effectuer un test à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :
ping $BMC_IP -c 3
Pour effectuer un test à partir d’un hôte de plan de contrôle de BMM via Azure CLI :
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
Réinitialiser le port sur l’appareil de structure
Si l’adresse IPv4 (BMC_IP) ne répond pas, une réinitialisation du port de l’appareil de structure redéclenche la négociation automatique sur le port, et peut le remettre en ligne.
Pour rechercher le port Network Fabric
à partir d’Azure :
Obtenez le
RackID
et leRackSlot
de la sectionBMM Details
précédente.Dans le portail Azure, descendez dans la hiérarchie jusqu’au RackID
Network Rack
de la BMM.Sélectionnez l’onglet
Network Devices
et le commutateur de gestion (Mgmt) du rack.Sous
Resources
, sélectionnezNetwork Interfaces
, puis l’interface de BMC (iDRAC) ou l’interface de démarrage (PXE) du port qui nécessite une réinitialisation.Collectez les informations suivantes :
- Groupe de ressources de structure réseau (NF_RG)
- Nom de l’appareil (NF_DEVICE_NAME)
- Nom de l’interface (NF_DEVICE_INTERFACE_NAME)
Réinitialisez le port :
Pour réinitialiser le port à l’aide d’Azure CLI :
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INERFACE_NAME --state Enable
Réinitialisation électrique à distance de la BMM (vidage de l’électricité résiduelle)
Effectuez un vidage à distance de l’électricité résiduelle de la BMM via l’IU du contrôleur BMC : BMC
->Configuration
->BIOS Settings
->Miscellaneous Settings
->Select "Full Power Cycle" under Power Cycle Request
->Apply and reboot
Effectuez un vidage à distance de l’électricité résiduelle en utilisant racadm
à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
Réinitialisation électrique physique de la BMM (vidage de l’électricité résiduelle)
Pour permettre un vidage physique de l’électricité résiduelle, le personnel présent sur le site local déconnecte physiquement les câbles d’alimentation des deux adaptateurs d’alimentation pendant 5 minutes, puis rétablit l’alimentation. Ce processus permet de vérifier que le serveur, les condensateurs et tous les composants sont complètement mis hors tension, et que toutes les données en cache sont effacées.
Réinitialiser la NVRAM
En cas d’échec de l’approvisionnement en raison d’une erreur OEM ou matérielle, la séquence de démarrage peut être verrouillée dans la NVRAM sur PXE boot
au lieu d’afficher hdd
ou hard drive
en premier dans l’ordre de démarrage.
Cette situation montre généralement la BMM à l’étape du chargeur de démarrage sur la console, et est bloquée en l’absence d’intervention manuelle via une frappe au clavier.
Pour réinitialiser la NVRAM, utilisez la séquence suivante dans l’IU du contrôleur BMC : Maintenance
->Diagnostics
->Reset iDrac to Factory Defaults
->Discard All Settings, but preserve user and network settings
->Apply and reboot
Réinitialiser le mot de passe du contrôleur BMC
Si le journal d’activité indique des informations d’identification non valides sur le contrôleur BMC, exécutez la commande suivante à partir d’un serveur de rebond (jumpbox) ayant accès au réseau du contrôleur BMC :
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Réintégration de serveurs dans le cluster après une réparation
Une fois le matériel réparé, exécutez l’action de BMM replace
en suivant les instructions de la page Actions de BMM.
Si vous avez toujours des questions, contactez le support. Pour plus d’informations sur les plans de support, consultez les plans de support Azure.