Gérer le cycle de vie des machines nues
Cet article explique comment effectuer des opérations de gestion du cycle de vie sur des machines nues (BMM). Ces étapes doivent être utilisées pour résoudre les problèmes liés aux défaillances ou lors de l’exécution d’actions de maintenance. Les commandes permettant de gérer le cycle de vie du BMM sont les suivantes :
Attention
N’effectuez aucune action sur les serveurs d’administration sans avoir consulté au préalable le Support Microsoft. Cela peut affecter l’intégrité du cluster Operator Nexus.
- Mettre une BMM hors tension
- Démarrer une BMM
- Redémarrer une BMM
- Rendre une BMM non planifiable (isoler sans évacuation)
- Rendre une BMM non planifiable (isoler avec évacuation)
- Rendre une BMM non planifiable (annuler l’isolation)
- Réimager une BMM
- Remplacer une BMM
Important
Les requêtes de commandes disruptives sur un nœud KCP (plan de contrôle Kubernetes) sont rejetées si une autre commande d’action disruptive est déjà en cours d’exécution sur un autre nœud KCP, ou si le KCP complet n’est pas disponible. Cette vérification vise à maintenir l’intégrité de l’instance Nexus et à éviter que plusieurs nœuds KCP cessent d’être opérationnels en même temps à la suite d’actions disruptives simultanées. Si plusieurs nœuds cessent d’être opérationnels, le seuil de quorum sain du plan de contrôle Kubernetes est rompu.
Les actions en gras de la liste ci-dessus sont considérées comme perturbatrices (arrêt, redémarrage, reimage, remplacement). Cordon sans évacuation n’est pas considéré comme perturbant. Cordon avec évacuation est considéré comme perturbant.
Comme indiqué dans l’instruction de mise en garde, l’exécution d’actions sur les serveurs d’administration, en particulier les nœuds KCP, ne doit être effectuée qu’en consultation avec le personnel du support technique De Microsoft.
Prérequis
- Installez la dernière version des extensions Azure CLI appropriées.
- Obtenez le nom du groupe de ressources pour le nom du groupe de ressources managé par le cluster BMM (cluster_MRG) .
- Obtenez le nom de la machine nue qui nécessite une opération de gestion du cycle de vie.
- Vérifiez que la machine nue cible
poweredState
est définie surOn
etreadyState
est définie surTrue
.- Cette condition préalable n’est pas applicable à la commande
start
.
- Cette condition préalable n’est pas applicable à la commande
Mettre une BMM hors tension
Cette commande va power-off
la bareMetalMachineName
spécifiée.
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Démarrer une BMM
Cette commande va start
la bareMetalMachineName
spécifiée.
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Redémarrer une BMM
Cette commande va restart
la bareMetalMachineName
spécifiée.
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Rendre une BMM non planifiée (cordon)
Pour identifier si des charges de travail s’exécutent actuellement sur une BMM, exécutez la commande suivante :
Pour les machines virtuelles :
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Pour les nœuds de cluster Nexus Kubernetes : (nécessite une journalisation dans le cluster Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Vous pouvez rendre une BMM non planifiée en exécutant la commande cordon
.
Lors de l’exécution de la commande cordon
, les charges de travail Nexus de l’opérateur ne sont pas planifiées sur le BMM lorsque le cordon est défini ; toute tentative de création d’une charge de travail sur une BMM cordoned
entraîne la définition de la charge de travail définie sur l’état pending
. Les charges de travail existantes continuent d’être exécutées.
La commande cordon prend en charge un paramètre evacuate
avec la valeur False
par défaut.
Il est recommandé de le définir sur True
. Lors de l’exécution de la commande cordon
, avec la valeur True
du paramètre evacuate
, les charges de travail qui s’exécutent sur la BMM sont stopped
et la BMM est définie sur l’état pending
.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
La evacuate "True"
supprime des charges de travail de ce nœud pendant que evacuate "False"
empêche uniquement la planification de nouvelles charges de travail.
Faire une BMM « planifiée » (uncordon)
Vous pouvez rendre une BMM « planifiée » (utilisable) en exécutant la commande uncordon
. Toutes les charges de travail dans un état pending
sur la BMM sont restarted
lorsque la BMM est uncordoned
.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Reimager une BMM
Vous pouvez restaurer la version du runtime sur une BMM en exécutant la commande reimage
. Ce processus redéploie l’image runtime sur la BMM cible et exécute les étapes permettant de rejoindre le cluster avec les mêmes identificateurs. Cette action n’affecte pas les fichiers de charge de travail du locataire sur cette BMM. Si une action d'écriture ou de modification est effectuée sur le nœud via l'accès BMM, cette action de "réimage" est nécessaire pour rétablir la prise en charge par Microsoft et les modifications seront perdues, ce qui ramènera le nœud à son état normal.
En guise de bonne pratique, assurez-vous que les charges de travail de BMM sont vidées à l’aide de la commande cordon
, avec evacuate "True"
, avant d’exécuter la commande reimage
.
Avertissement
L’exécution de plusieurs commandes baremetalmachine replace
ou reimage
en même temps, ou l’exécution de replace
en même temps qu’une reimage
laisse des serveurs dans un état non opérationnel. Assurez-vous qu’un replace
/reimage
est entièrement terminé avant de commencer un autre.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Remplacer une BMM
Utilisez la commande replace
lorsqu’un serveur rencontre des problèmes matériels nécessitant un remplacement complet ou partiel du matériel. Après le remplacement de composants tels que la carte mère ou la carte d’interface réseau (NIC), l’adresse MAC de BMM change, mais l’adresse IP iDRAC et le nom d’hôte restent les mêmes.
Avertissement
L’exécution de plusieurs commandes baremetalmachine replace
ou reimage
en même temps, ou l’exécution de replace
en même temps qu’une reimage
laisse des serveurs dans un état non opérationnel. Assurez-vous qu’un replace
/reimage
est entièrement terminé avant de commencer un autre.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>