排查节点未就绪故障,后跟恢复
本文可帮助排查Microsoft Azure Kubernetes 服务(AKS)群集中的节点显示“节点未就绪”状态,但随后会自动恢复到正常状态的方案。
现象
你注意到,当节点报告其状态为“未就绪”时,应用程序停止响应。 但是,节点会自动恢复,现在,它正在寻找根本原因分析(RCA)。
原因
此问题的可能原因包括以下方案:
API 服务器不可用,并且你正在使用部署的就绪情况探测。
如果 Pod 正在运行但尚未准备就绪,则表示就绪情况探测失败。 如果就绪情况探测失败,Pod 不会附加到服务,并且不会将流量转发到 Pod 实例。
发生虚拟机(VM)主机错误。 若要确定是否发生 VM 主机错误,请检查以下信息源:
预防
若要防止将来出现此问题,请执行下列操作之一或多项:
- 确保服务层级已完全付费。
- 减少对 API 服务器的次数
watch
和get
请求数。 - 将节点池替换为正常的节点池。
详细信息
- 有关常规故障排除步骤,请参阅 节点未就绪故障的基本故障排除。