Partager via


Résoudre les erreurs courantes de réparation automatique des nœuds

Quand Azure Kubernetes Service (AKS) détecte un nœud avec un NotReady état pendant plus de cinq minutes, il tente de réparer automatiquement le nœud. La réparation automatique de nœud est un service de meilleure qualité. Il ne garantit pas que le nœud peut être restauré dans un état sain. Pour plus d’informations, consultez le processus de réparation automatique de nœud.

Pendant le processus de réparation automatique du nœud, AKS lance reboot, reimageet redeploy les actions sur votre nœud défectueux. Les erreurs peuvent se produire en raison de diverses raisons et codes d’erreur sont découverts par le biais d’événements Kubernetes. Vous pouvez utiliser des événements Kubernetes pour surveiller l’état de votre nœud et les actions de réparation automatique.

Cet article fournit des causes potentielles et des solutions aux erreurs courantes de réparation automatique des nœuds et décrit les meilleures pratiques pour surveiller le processus de réparation automatique du nœud.

Prerequisites

Vérifiez les événements Kubernetes suivants pour identifier le type d’erreur de réparation automatique de nœud :

Motif Message d’événement Description
NodeRebootError Échec de l’action de redémarrage automatique du nœud en raison d’un échec d’opération : [code d’erreur ici] Émis en cas d’erreur avec l’action reboot .
NodeReimageError Échec de l’action de reimageage de réparation automatique du nœud en raison d’un échec d’opération : [code d’erreur ici] Émis en cas d’erreur avec l’action reimage .
NodeRedeployError Échec de l’action de redéploiement automatique de nœud en raison d’un échec d’opération : [code d’erreur ici] Émis en cas d’erreur avec l’action redeploy .

Note

Étant donné que votre nœud est déjà dans un état défectueux avant le processus de réparation automatique, dans la plupart des cas, les erreurs de réparation automatique de nœud n’affectent pas votre cluster ou vos applications. Lorsque vous rencontrez des erreurs de réparation automatique de nœud, nous vous recommandons d’essayer de réparer le nœud en suivant les instructions de la résolution des problèmes de base des échecs Node Not Ready. Si vous ne pouvez pas le restaurer à un Succeeded état et voir les erreurs persistantes signalées par la réparation automatique du nœud, contactez support Azure pour obtenir de l’aide.

Codes d’erreur courants

Code d'erreur Cause et solution
VMExtensionProvisioningError Une ou plusieurs extensions de machine virtuelle n’ont pas pu être configurées sur la machine virtuelle. Pour plus d’informations sur les types d’erreurs et les étapes de dépannage possibles, consultez Résoudre les problèmes liés au code d’erreur ERR_VHD_FILE_NOT_FOUND (124). Pour déterminer l’erreur d’approvisionnement exacte de l’extension de machine virtuelle sur votre nœud, affichez les détails de l’erreur dans le Portail Azure.
InvalidParameter Cette erreur se produit si le processus de réparation automatique du nœud tente d’accéder à un nœud qui n’existe plus.
scaleSetNameAndInstanceIDFromProviderID a échoué Ce problème se produit lorsque le nœud n’est pas configuré correctement.
Échec de l’authentification ManagedIdentityCredential Ce problème se produit lorsque le nœud n’est pas initialisé correctement.
VMRedeploymentFailed Cette erreur se produit lorsque vous essayez de redéployer le nœud. Dans ce cas, votre pool de nœuds peut entrer dans un état d’échec. Pour plus d’informations sur les causes potentielles et les étapes de résolution des problèmes, consultez Résoudre les problèmes liés aux clusters ou nœuds Azure Kubernetes Service dans un état d’échec.
TooManyVMRedeploymentRequests Cette erreur se produit lorsque votre cluster dépasse la limite pour les demandes de redéploiement de machine virtuelle. Redeploy est l’une des actions de réparation automatique du nœud. Cette erreur signifie que l’action redeploy ne peut pas réparer votre nœud. Pour résoudre le problème Node Not Ready, consultez La résolution des problèmes de base des échecs Node Not Ready.
OutboundConnectivityNotEnabledOnVMSS Cette erreur se produit lorsque votre nœud ou groupe de machines virtuelles identiques global n’a pas d’accès sortant activé. Pour résoudre ce problème, activez l’accès sortant sécurisé pour votre groupe identique à l’aide d’une méthode qui convient le mieux à votre application. Pour plus d’informations, consultez « OutboundConnectivityNotEnabledOnVM. Aucune connectivité sortante configurée pour la machine virtuelle. »

Meilleures pratiques pour la supervision de la réparation automatique des nœuds

  • AKS stocke les événements Kubernetes à partir de la dernière heure par défaut. Nous vous recommandons d’activer Container Insights afin de pouvoir stocker des événements pendant jusqu’à 90 jours. Vous pouvez également interroger des événements et configurer des alertes pour détecter rapidement les erreurs de réparation automatique des nœuds.

  • La réparation automatique de nœud est un service de meilleure qualité. Il ne garantit pas que votre nœud peut être restauré à un Ready état. Nous vous recommandons de surveiller et de définir activement des alertes pour les problèmes Node Not Ready, et de résoudre et de résoudre ces problèmes vous-même. Pour plus d’informations, consultez la résolution des problèmes de base liés aux nœuds non prêts.

Contactez-nous pour obtenir de l’aide

Pour toute demande ou assistance, créez une demande de support ou posez une question au support de la communauté Azure. Vous pouvez également soumettre des commentaires sur les produits à la communauté de commentaires Azure.