你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

评估 AKS 群集运行状况

本文是一系列文章的其中一篇。 从概述开始。

要开始会审实践,请评估群集和网络的总体运行状况。

工具

有许多工具和功能可用于诊断和解决 Azure Kubernetes 服务 (AKS) 群集中的问题。

在 Azure 门户中,选择 AKS 群集资源。 这些工具和功能位于导航窗格中。

  • 诊断并解决问题:可以使用此工具来帮助识别和解决群集内的问题。

  • 资源运行状况:可以使用此工具来帮助诊断可能影响 Azure 资源的服务问题并获取支持。 此工具提供有关资源当前和过去的运行状况的信息。

  • 顾问建议Azure 顾问充当个性化云顾问,指导你遵循最佳做法来优化 Azure 部署。 可以使用顾问来分析你的资源配置和使用情况遥测。 顾问可建议解决方案,以便你提高成本效益、性能、可靠性和安全性。

  • 日志:使用此功能访问存储在 Log Analytics 工作区中的群集日志和指标。 可以监视和分析群集的日志和指标,以提供见解并改进故障排除。

使用这些工具和功能,可以有效地诊断和解决问题、优化 AKS 群集部署以及监视 Azure 资源的运行状况和性能。

诊断并解决问题

诊断和解决问题功能提供了一套全面的工具来帮助识别和解决与群集相关的各种问题。 选择与问题最相关的故障排除类别。

Screenshot that shows the Diagnose and solve problems page.

要检查群集运行状况,可以选择:

  • 群集和控制平面可用性和性能:检查是否存在影响群集运行状况的服务可用性或限制问题。
  • 连接问题:检查群集域名系统 (DNS) 解析是否存在错误,或者出站通信路由是否存在连接问题。

资源运行状况

使用资源运行状况功能可识别可能影响群集运行状况的群集问题和服务问题,并获得解决这些问题的支持。 设置资源警报,以便轻松监视群集的运行状况。 资源运行状况功能提供有关群集当前和过去运行状况的报告。 有四种运行状况:

  • 可用:此状态表示未检测到影响群集运行状况的事件。 如果群集在过去 24 小时内从计划外停机中恢复,则会显示“最近已解决”通知

  • 不可用:此状态表示已检测到影响群集运行状况的正在发生的平台或非平台事件。

  • 未知:此状态表示该功能已超过 10 分钟未收到有关资源的任何信息。 此状态通常在释放虚拟机时出现。 此状态不是资源状态的最终指示,但它可能是故障排除过程中一个有用的数据点。

  • 降级:此状态表示群集性能有所下降,但仍可供使用。

以下屏幕截图显示资源运行状况概述。

Screenshot that shows the AKS resource health overview.

有关详细信息,请参阅 Azure 资源运行状况概述

顾问

顾问提供可操作的建议,帮助优化 AKS 群集,以确保可靠性、安全性、卓越运营和性能效率。 可以使用顾问主动提高群集的性能并避免潜在问题。 选择一个建议以查看有关如何优化群集的详细信息。

Screenshot that shows the Advisor for AKS result with actions.

以下屏幕截图显示了所选建议的资源。

Screenshot that shows the Advisor for AKS result sample 2. 有关详细信息,请参阅顾问概述

Log Analytics

日志分析提供对群集运行状况的见解。 要访问 Log Analytics 工作区,请转到 AKS 群集并在导航窗格中选择“日志”

可以选择预定义的查询来分析群集运行状况。

Screenshot that shows queries.

使用内置查询来查询 Log Analytics 工作区中收集的日志和指标。 以下列表描述了可用性、容器日志和诊断类别中某些查询的功能。

  • 可用性

    • “每个节点的就绪状态”查询:按就绪状态查看群集中所有节点的计数。

    • “列出阶段的所有 Pod 计数”查询:按阶段查看所有 Pod 的计数,例如失败、挂起、未知、正在运行或成功

  • 容器日志

    • “在容器日志表中查找值”查询:在 ContainerLogs 表中查找 LogEntry 具有指定字符串参数的行。

    • “列出每个命名空间的容器日志”查询:查看群集中命名空间的容器日志。

  • 诊断

    • “群集自动缩放程序日志”查询:查询来自群集自动缩放程序的日志。 此查询可以提供有关群集意外纵向扩展或缩减的原因的信息。

    • “Kubernetes API 服务器日志”查询:查询来自 Kubernetes API 服务器的日志。

    • “映像清单”查询:列出所有容器映像及其状态。

    • “每个节点每秒 Prometheus 磁盘读取次数”查询:以时间表形式查看默认 Kubernetes 命名空间中的 Prometheus 磁盘读取指标。

    • “上周实例平均 CPU 使用量增长情况”查询:按降序显示过去一周实例的平均 CPU 增长情况。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。