使用性能计数器对 ATA 进行故障排除

适用于:高级威胁分析版本 1.9

ATA 性能计数器可深入了解 ATA 的每个组件的性能。 ATA 中的组件按顺序处理数据,以便在出现问题时,它可能会导致部分流量在组件链中的某个位置丢弃。 若要解决此问题,必须找出哪个组件正在进行反向修复,并在链的开头修复问题。 使用性能计数器中的数据来了解每个组件的工作原理。 请参阅 ATA 体系结构 ,了解内部 ATA 组件的流。

ATA 组件进程

  1. 当组件达到其最大大小时,它会阻止上一个组件向其发送更多实体。

  2. 然后,上一个组件最终将开始增加 自己的 大小,直到它阻止之前的组件发送更多实体。

  3. 这一直发生在 NetworkListener 组件上,当它无法再转发实体时,该组件将丢弃流量。

检索性能监视器文件进行故障排除

若要从各种 ATA 组件检索性能监视器文件 (BLG) ,

  1. 打开 perfmon。
  2. 停止名为: Microsoft ATA 网关Microsoft ATA 中心的数据收集器集。
  3. 转到数据收集器集文件夹 (默认为“C:\Program Files\Microsoft Advanced Threat Analytics\Gateway\Logs\DataCollectorSets”或“C:\Program Files\Microsoft Advanced Threat Analytics\Center\Logs\DataCollectorSets”) 。
  4. 复制最近修改的 BLG 文件。
  5. 重启名为: Microsoft ATA 网关MICROSOFT ATA 中心的数据收集器集。

ATA 网关性能计数器

在本部分中,对 ATA 网关的每个引用也引用 ATA 轻型网关。

可以通过添加 ATA 网关的性能计数器来观察 ATA 网关的实时性能状态。 这是通过打开性能监视器并添加 ATA 网关的所有计数器来完成的。 性能计数器对象的名称为: Microsoft ATA 网关

下面是要注意的 ATA 网关计数器main列表:

计数器 描述 阈值 疑难解答
Microsoft ATA Gateway\NetworkListener PEF 分析的消息\Sec ATA 网关每秒处理的流量。 无阈值 帮助你了解 ATA 网关正在分析的流量。
NetworkListener PEF 已删除事件\秒 ATA 网关每秒丢弃的流量。 此数字应一直为零, (罕见的短时间滴是可接受的) 。 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅上面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Gateway\NetworkListener ETW Dropped Events\Sec ATA 网关每秒丢弃的流量。 此数字应一直为零, (罕见的短时间滴是可接受的) 。 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅上面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Gateway\NetworkActivityTranslator 消息数据 # 块大小 排队等待转换到网络活动的流量 (NAs) 。 应小于最大值-1 (默认最大值:100,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅上面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Gateway\EntityResolver 活动块大小 ) 排队等待解决的网络活动 (NA 的数量。 应小于最大 1 (默认最大值:10,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅上面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Gateway\EntitySender 实体批处理块大小 ) 排队要发送到 ATA 中心的网络活动 (NA 的数量。 应小于最大 1 (默认最大值:1,000,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅上面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Gateway\EntitySender Batch 发送时间 发送最后一批所花费的时间。 大多数时间应小于 1000 毫秒 检查 ATA 网关与 ATA 中心之间是否存在任何网络问题。

注意

  • 计时计数器以毫秒为单位。
  • 有时,使用 报表 图类型 (示例监视计数器的完整列表更为方便:实时监视所有计数器)

ATA 轻型网关性能计数器

性能计数器可用于轻型网关中的配额管理,以确保 ATA 不会从安装它的域控制器中消耗太多资源。 若要测量 ATA 对轻型网关强制实施的资源限制,请添加这些计数器。

这是通过打开性能监视器并添加 ATA 轻型网关的所有计数器来完成的。 性能计数器对象的名称为: Microsoft ATA 网关Microsoft ATA 网关更新程序

计数器 描述 阈值 疑难解答
Microsoft ATA 网关更新程序\GatewayUpdaterResourceManager CPU 时间最大百分比 轻型网关进程可以使用的最大 CPU 时间量 (百分比) 。 无阈值。 这是保护域控制器资源不被 ATA 轻型网关占用的限制。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要向运行域控制器的服务器添加更多资源。
Microsoft ATA 网关更新程序\GatewayUpdaterResourceManager 提交内存最大大小 轻型网关进程可以使用的最大已提交内存量 () 字节数。 无阈值。 这是保护域控制器资源不被 ATA 轻型网关占用的限制。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要向运行域控制器的服务器添加更多资源。
Microsoft ATA 网关更新程序\GatewayUpdaterResourceManager 工作集限制大小 轻型网关进程可以使用的最大物理内存量 () 字节数。 无阈值。 这是保护域控制器资源不被 ATA 轻型网关占用的限制。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要向运行域控制器的服务器添加更多资源。

若要查看实际消耗量,请参阅以下计数器:

计数器 描述 阈值 疑难解答
进程 (Microsoft.Tri.Gateway) %处理器时间 轻型网关进程实际消耗的 CPU 时间 (百分比) 。 无阈值。 将此计数器的结果与 GatewayUpdaterResourceManager CPU 时间最大 %中的限制进行比较。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要将更多资源专用于轻型网关。
处理 (Microsoft.Tri.Gateway) \专用字节 轻型网关进程实际消耗的已提交内存量 () 字节数。 无阈值。 将此计数器的结果与 GatewayUpdaterResourceManager Commit Memory Max Size 中的限制进行比较。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要将更多资源专用于轻型网关。
进程 (Microsoft.Tri.Gateway) \Working Set 轻量级网关进程实际消耗) 物理内存量 (字节数。 无阈值。 将此计数器的结果与 GatewayUpdaterResourceManager 工作集限制大小中的限制进行比较。 如果看到进程通常在一段时间内达到最大限制, (进程达到限制,然后开始丢弃流量) 这意味着你需要将更多资源专用于轻型网关。

ATA 中心性能计数器

可以通过添加 ATA 中心的性能计数器来观察 ATA 中心的实时性能状态。

这是通过打开性能监视器并添加 ATA 中心的所有计数器来完成的。 性能计数器对象的名称为: Microsoft ATA Center

下面是要注意的MAIN ATA 中心计数器的列表:

计数器 描述 阈值 疑难解答
Microsoft ATA Center\EntityReceiver 实体批处理块大小 ATA 中心排队的实体批数。 应小于最大 1 (默认最大值:10,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅前面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Center\NetworkActivityProcessor 网络活动块大小 ) 排队等待处理的 NA (网络活动数。 应小于最大 1 (默认最大值:50,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅前面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Center\EntityProfiler 网络活动块大小 ) 排队等待分析的网络活动 (NA 的数量。 应小于最大值-1 (默认最大值:100,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅前面的 ATA 组件进程

检查 CPU 或内存是否没有问题。
Microsoft ATA Center\Database * 块大小 排队要写入数据库的特定类型的网络活动数。 应小于最大 1 (默认最大值:50,000) 检查是否有任何组件达到其最大大小,并且一直阻止以前的组件到 NetworkListener。 请参阅前面的 ATA 组件进程

检查 CPU 或内存是否没有问题。

注意

  • 计时计数器以毫秒为单位
  • 有时,使用报表 (示例的图形类型监视计数器的完整列表更为方便:实时监视) 的所有计数器。

操作系统计数器

下表列出了要注意的main操作系统计数器:

计数器 描述 阈值 疑难解答
处理器 (_Total) % 处理器时间 处理器执行非空闲线程所花费的运行时间的百分比。 平均小于 80% 检查是否有特定进程占用的处理器时间比应该多得多。

添加更多处理器。

减少每个服务器的流量。

在虚拟服务器上,“Processor (_Total) % Processor Time”计数器可能不太准确,在这种情况下,测量处理器功率不足的更准确方法是通过“System\Processor Queue Length”计数器。
System\Context 开关\sec 所有处理器从一个线程切换到另一个线程的组合速率。 物理核心 (小于 5000 个核心) 检查是否有特定进程占用的处理器时间比应该多得多。

添加更多处理器。

减少每个服务器的流量。

在虚拟服务器上,“Processor (_Total) % Processor Time”计数器可能不太准确,在这种情况下,测量处理器功率不足的更准确方法是通过“System\Processor Queue Length”计数器。
System\Processor Queue Length 已准备好执行并等待计划的线程数。 物理核心 (不到五个核心) 检查是否有特定进程占用的处理器时间比应该多得多。

添加更多处理器。

减少每个服务器的流量。

在虚拟服务器上,“Processor (_Total) % Processor Time”计数器可能不太准确,在这种情况下,测量处理器功率不足的更准确方法是通过“System\Processor Queue Length”计数器。
Memory\Available MBytes 可用于分配的物理内存 (RAM) 量。 应大于 512 检查是否有特定进程占用的物理内存比应该多得多。

增加物理内存量。

减少每个服务器的流量。
LogicalDisk (*) \Avg. Disk sec\Read 从磁盘读取数据的平均延迟 (应选择数据库驱动器作为实例) 。 应小于 10 毫秒 检查是否有特定进程利用数据库驱动器的利用率超过它应该的利用率。

如果此驱动器可以在延迟小于 10 毫秒的情况下提供当前工作负载,请咨询存储团队/供应商。 可以使用磁盘利用率计数器来确定当前工作负荷。
LogicalDisk (*) \Avg.Disk sec\Write 将数据写入磁盘的平均延迟, (应选择数据库驱动器作为实例) 。 应小于 10 毫秒 检查是否有特定进程利用数据库驱动器的利用率超过它应该的利用率。

如果此驱动器可以交付当前工作负载,但延迟小于 10 毫秒,请咨询存储团队\供应商。 可以使用磁盘利用率计数器来确定当前工作负荷。
\LogicalDisk (*) \Disk Reads\sec 对磁盘执行读取操作的速率。 无阈值 磁盘利用率计数器可以在排查存储延迟问题时提供见解。
\LogicalDisk (*) \Disk Read Bytes\sec 每秒从磁盘读取的字节数。 无阈值 磁盘利用率计数器可以在排查存储延迟问题时提供见解。
\LogicalDisk*\Disk Writes\sec 对磁盘执行写入操作的速率。 无阈值 磁盘利用率计数器 (在排查存储延迟问题时可以添加见解)
\LogicalDisk (*) \Disk Write Bytes\sec 每秒写入磁盘的字节数。 无阈值 磁盘利用率计数器可以在排查存储延迟问题时提供见解。

另请参阅