调试 .NET Core 中的高 CPU 使用率

本文适用于: ✔️ .NET Core 3.1 SDK 及更高版本

本教程将介绍如何调试 CPU 使用率过高的情况。 使用提供的示例 ASP.NET Core Web 应用 源代码存储库,可以故意造成死锁。 终结点将停止响应并遇到线程累积问题。 你将了解如何使用各种工具,通过几条关键的诊断数据诊断此情况。

在本教程中,你将:

  • 调查 CPU 使用率是否过高
  • 使用 dotnet-counters 确定 CPU 使用率
  • 使用 dotnet-trace 进行跟踪生成
  • PerfView 中的配置文件性能
  • 诊断并解决 CPU 使用率过高的问题

先决条件

本教程使用:

CPU 计数器

在尝试收集诊断数据之前,需要观察 CPU 状况是否过高。 使用以下命令从项目根目录运行示例应用程序

dotnet run

若要查找该进程 ID,请使用以下命令:

dotnet-trace ps

注意命令输出中的进程 ID。 我们的进程 ID 是 22884,你的进程 ID 将不同。 若要检查当前的 CPU 使用率,请使用 dotnet counters 工具命令:

dotnet-counters monitor --refresh-interval 1 -p 22884

refresh-interval 是计数器轮询 CPU 值间隔的秒数。 输出应与以下内容类似:

Press p to pause, r to resume, q to quit.
    Status: Running

[System.Runtime]
    % Time in GC since last GC (%)                         0
    Allocation Rate / 1 sec (B)                            0
    CPU Usage (%)                                          0
    Exception Count / 1 sec                                0
    GC Heap Size (MB)                                      4
    Gen 0 GC Count / 60 sec                                0
    Gen 0 Size (B)                                         0
    Gen 1 GC Count / 60 sec                                0
    Gen 1 Size (B)                                         0
    Gen 2 GC Count / 60 sec                                0
    Gen 2 Size (B)                                         0
    LOH Size (B)                                           0
    Monitor Lock Contention Count / 1 sec                  0
    Number of Active Timers                                1
    Number of Assemblies Loaded                          140
    ThreadPool Completed Work Item Count / 1 sec           3
    ThreadPool Queue Length                                0
    ThreadPool Thread Count                                7
    Working Set (MB)                                      63

在 Web 应用运行的情况下,CPU 根本不会在启动后就立即被消耗,且会在 0% 进行报告。 使用 60000 作为路由参数导航到 api/diagscenario/highcpu 路由:

https://localhost:5001/api/diagscenario/highcpu/60000

现在,重新运行 dotnet-counters 命令。 如果只对监视 cpu-usage 计数器感兴趣,请将“--counters System.Runtime[cpu-usage]”添加到上一命令中。 我们不确定是否正在消耗 CPU,因此将监视与上面相同的计数器列表,以验证计数器值是否在应用程序的预期范围内。

dotnet-counters monitor -p 22884 --refresh-interval 1

你应会看到 CPU 使用率增加,如下所示(具体取决于主机,预期 CPU 使用率会有所不同):

Press p to pause, r to resume, q to quit.
    Status: Running

[System.Runtime]
    % Time in GC since last GC (%)                         0
    Allocation Rate / 1 sec (B)                            0
    CPU Usage (%)                                         25
    Exception Count / 1 sec                                0
    GC Heap Size (MB)                                      4
    Gen 0 GC Count / 60 sec                                0
    Gen 0 Size (B)                                         0
    Gen 1 GC Count / 60 sec                                0
    Gen 1 Size (B)                                         0
    Gen 2 GC Count / 60 sec                                0
    Gen 2 Size (B)                                         0
    LOH Size (B)                                           0
    Monitor Lock Contention Count / 1 sec                  0
    Number of Active Timers                                1
    Number of Assemblies Loaded                          140
    ThreadPool Completed Work Item Count / 1 sec           3
    ThreadPool Queue Length                                0
    ThreadPool Thread Count                                7
    Working Set (MB)                                      63

在整个请求期间,CPU 使用率将在增加的百分比附近徘徊。

提示

若要可视化更高的 CPU 使用率,可以在多个浏览器选项卡中同时使用此终结点。

此时,你可以放心地说 CPU 运行的速度比预期的要高。 确定问题的影响是找出原因的关键。 除了使用诊断工具,我们还会通过 CPU 使用率较高的影响来找出问题的原因。

使用探查器分析高 CPU 使用率

当分析具有高 CPU 使用率的应用时,需要一个诊断工具来提供代码正在执行的操作的见解。 常见的选择是探查器,并且有不同的探查器选项可供选择。 dotnet-trace 可以在所有操作系统上使用,但是,与 Linux 或适用于 Windows 的 ETW 的“perf”等内核感知探查器相比,其安全点偏差和仅限托管的调用堆栈的限制产生的信息更加笼统。 如果性能调查仅涉及托管代码,通常 dotnet-trace 就足够了。

perf 工具可用于生成 .NET Core 应用配置文件。 我们将演示此工具,尽管也可以使用 dotnet-trace。 退出示例调试目标的上一个实例。

设置 DOTNET_PerfMapEnabled 环境变量,使 .NET 应用在 /tmp 目录中创建 map 文件。 perf 使用此 map 文件按名称将 CPU 地址映射到 JIT 生成的函数。 有关详细信息,请参阅导出 perf 映射和 jit 转储

注意

.NET 6 为用于配置 .NET 运行时行为的环境变量标准化前缀 DOTNET_ 而不是 COMPlus_。 但是,COMPlus_ 前缀仍将继续正常工作。 如果使用的是早期版本的 .NET 运行时,则环境变量仍应该使用 COMPlus_ 前缀。

在同一终端会话中运行示例调试目标

export DOTNET_PerfMapEnabled=1
dotnet run

再次使用高 CPU API (https://localhost:5001/api/diagscenario/highcpu/60000) 终结点。 当它在 1 分钟请求内运行时,对进程 ID 运行 perf 命令:

sudo perf record -p 2266 -g

perf 命令将启动性能收集过程。 让它运行大约 20-30 秒,然后按 Ctrl+C 退出收集过程。 可以使用相同的 perf 命令来查看跟踪的输出。

sudo perf report -f

还可以使用以下命令生成 flame-graph:

git clone --depth=1 https://github.com/BrendanGregg/FlameGraph
sudo perf script | FlameGraph/stackcollapse-perf.pl | FlameGraph/flamegraph.pl > flamegraph.svg

此命令生成 flamegraph.svg,你可以在浏览器中查看 flamegraph.svg 以调查性能问题:

Flame graph SVG image

使用 Visual Studio 分析高 CPU 数据

可以在 Visual Studio 中分析所有 *.nettrace 文件。 若要在 Visual Studio 中分析 Linux *.nettrace 文件,除了其他必要的文档外,还要将 *.nettrace 文件传输到 Windows 计算机,然后在 Visual Studio 中打开 *.nettrace 文件。 有关详细信息,请参阅分析 CPU 使用量数据

请参阅

后续步骤