Compartir a través de


Solución de errores comunes de reparación automática de nodos

Cuando Azure Kubernetes Service (AKS) detecta un nodo con un NotReady estado durante más de cinco minutos, intenta reparar automáticamente el nodo. La reparación automática de nodos es un servicio de mejor esfuerzo. No garantiza que el nodo se pueda restaurar a un estado correcto. Para obtener más información, consulte proceso de reparación automática de nodos.

Durante el proceso de reparación automática del nodo, AKS inicia rebootlas acciones , reimagey redeploy en el nodo incorrecto. Los errores pueden producirse debido a varios motivos y los códigos de error se detectan a través de eventos de Kubernetes. Puede usar eventos de Kubernetes para supervisar el estado del nodo y las acciones de reparación automática.

En este artículo se proporcionan posibles causas y soluciones a errores comunes de reparación automática de nodos y se describen los procedimientos recomendados para supervisar el proceso de reparación automática del nodo.

Requisitos previos

Compruebe los siguientes eventos de Kubernetes para identificar el tipo de error de reparación automática de un nodo:

Motivo Mensaje de evento Description
NodeRebootError Error en la acción de reinicio de reparación automática del nodo debido a un error de operación: [código de error aquí] Se genera cuando se produce un error con la reboot acción .
NodeReimageError Error en la acción de reimagen de reparación automática del nodo debido a un error de operación: [código de error aquí] Se genera cuando se produce un error con la reimage acción .
NodeRedeployError Error en la acción de reimplementación de la reparación automática del nodo debido a un error de operación: [código de error aquí] Se genera cuando se produce un error con la redeploy acción .

Nota:

Dado que el nodo ya está en un estado incorrecto antes del proceso de reparación automática, en la mayoría de los casos, los errores de reparación automática del nodo no afectan al clúster ni a las aplicaciones. Cuando se producen errores de reparación automática de nodos, se recomienda intentar reparar el nodo siguiendo las instrucciones de Solución de problemas básicas de errores de nodo no preparado. Si no puede restaurarlo a un Succeeded estado y ver los errores persistentes notificados por la reparación automática del nodo, póngase en contacto con Soporte técnico de Azure para obtener ayuda.

Códigos de error comunes

Código de error Causa y solución
VMExtensionProvisioningError No se pudieron aprovisionar una o varias extensiones de máquina virtual (VM) en la máquina virtual. Para obtener más información sobre los posibles tipos de error y los pasos de solución de problemas, consulte Solución de problemas del código de error de ERR_VHD_FILE_NOT_FOUND (124). Para determinar el error exacto de aprovisionamiento de extensiones de máquina virtual en el nodo, consulte los detalles del error en Azure Portal.
InvalidParameter Este error se produce si el proceso de reparación automática del nodo intenta acceder a un nodo que ya no existe.
error de scaleSetNameAndInstanceIDFromProviderID Este problema se produce cuando el nodo no se aprovisiona correctamente.
Error de autenticación ManagedIdentityCredential Este problema se produce cuando el nodo no se inicializa correctamente.
VMRedeploymentFailed Este error se produce al intentar volver a implementar el nodo. En este caso, el grupo de nodos podría especificar un estado con errores. Para más información sobre las posibles causas y los pasos de solución de problemas, consulte Solución de problemas de clústeres o nodos de Azure Kubernetes Service en un estado de error.
TooManyVMRedeploymentRequests Este error se produce cuando el clúster supera el límite de solicitudes de reimplementación de máquinas virtuales. Redeploy es una de las acciones de reparación automática del nodo. Este error significa que la acción no puede reparar el redeploy nodo. Para solucionar el problema no preparado del nodo, consulte Solución de problemas básicos de errores de nodo no preparado.
OutboundConnectivityNotEnabledOnVMSS Este error se produce cuando el nodo o el conjunto general de escalado de máquinas virtuales no tiene habilitado el acceso saliente. Para resolver este problema, habilite el acceso de salida seguro para el conjunto de escalado mediante un método que sea más adecuado para la aplicación. Para obtener más información, vea "OutboundConnectivityNotEnabledOnVM. No hay conectividad de salida configurada para la máquina virtual".

Procedimientos recomendados para supervisar la reparación automática de nodos

  • AKS almacena eventos de Kubernetes de la última hora de forma predeterminada. Se recomienda habilitar Container Insights para que pueda almacenar eventos durante un máximo de 90 días. También puede consultar eventos y configurar alertas para detectar rápidamente errores de reparación automática de nodos.

  • La reparación automática de nodos es un servicio de mejor esfuerzo. No garantiza que el nodo se pueda restaurar a un Ready estado. Se recomienda supervisar activamente y establecer alertas para problemas de Nodo no preparado y solucionar estos problemas usted mismo. Para obtener más información, consulte solución de problemas básicos de problemas de Nodo no preparado.

Ponte en contacto con nosotros para obtener ayuda

Si tiene preguntas o necesita ayuda, cree una solicitud de soporte o busque consejo en la comunidad de Azure. También puede enviar comentarios sobre el producto con los comentarios de la comunidad de Azure.