排查节点未就绪故障,后跟恢复

本文可帮助排查Microsoft Azure Kubernetes 服务(AKS)群集中的节点显示“节点未就绪”状态,但随后会自动恢复到正常状态的方案。

现象

你注意到,当节点报告其状态为“未就绪”时,应用程序停止响应。 但是,节点会自动恢复,现在,它正在寻找根本原因分析(RCA)。

原因

此问题的可能原因包括以下方案:

  • API 服务器不可用,并且你正在使用部署的就绪情况探测。

    如果 Pod 正在运行但尚未准备就绪,则表示就绪情况探测失败。 如果就绪情况探测失败,Pod 不会附加到服务,并且不会将流量转发到 Pod 实例。

  • 发生虚拟机(VM)主机错误。 若要确定是否发生 VM 主机错误,请检查以下信息源:

预防

若要防止将来出现此问题,请执行下列操作之一或多项:

  • 确保服务层级已完全付费。
  • 减少对 API 服务器的次数 watchget 请求数。
  • 将节点池替换为正常的节点池。

详细信息