了解诊断测试

Microsoft HPC Pack 提供了一组常用的诊断测试。 可以使用这些测试来帮助验证部署、排查故障并检测性能下降。 本主题介绍安装 HPC Pack 时默认包含的 系统 测试。 有关适用于 Excel 的 HPC Services 测试、新提供的测试和创建自定义诊断的信息,请参阅 联机诊断资源

系统 诊断测试在概念上按套件分组。 本主题中的以下部分介绍每个套件中的测试(如果适用)测试的可配置参数:

部署环境验证程序

此套件中的测试可帮助你找到可能影响裸机节点部署的常见问题。 有关详细信息,请参阅 部署节点之前验证环境。

注意

对于配置为故障转移群集的头节点,部署环境验证程序仅测试活动头节点。 若要进行其他检查,可能需要故障转移并在另一个头节点上运行测试。 通常,故障转移群集中的头节点配置类似,两个头节点之间的不同问题并不常见,但在恢复后运行测试可能很好(在致命故障后新恢复/还原的头节点)。

诊断 描述
部署:DHCP 测试 验证所有网络的 DHCP 服务器可用性。
部署:DNS 测试 验证所有网络的 DNS 服务器可用性,并报告 DNS 服务器 IP 地址。
部署:凭据测试 验证安装凭据是否为有效的 HPC 用户。 有关详细信息,请参阅 提供安装凭据
部署:Active Directory 连接测试 验证与域控制器的连接并报告响应时间。
部署:IPsec 测试 检查企业网络上是否启用了 Internet 协议安全性(IPsec)。 如果通过组策略在域上强制实施 IPsec,则可能会在部署过程中遇到问题。 例如,IPsec 可以通过阻止端口来禁止计算节点与头节点通信。
部署:Windows 部署服务测试 验证 Windows 部署传输服务是否已打开,并且未安装部署服务器。 Windows 部署服务允许远程 Windows 安装到已启用 PXE 的计算机。

HPC Pack 仅在 Windows 部署服务角色中使用传输服务器角色服务。 无需安装部署服务器角色服务。
部署:Windows 映像和安装共享测试 验证用于部署的每个节点模板和 Windows 预安装环境(Windows PE)映像中的安装映像是否未丢失、损坏或被另一个进程锁定,并且 Windows PE 映像的大小不超过 300 MB。 验证用于安装的共享文件夹是否存在并具有正确的权限。

另请参阅 了解节点模板

Windows PE 用于准备用于 Windows 安装的计算机、从网络文件服务器复制磁盘映像、启动 Windows 安装程序以及捕获节点的映像。
部署:NAT 测试 验证头节点上是否正确配置了网络地址转换(NAT),以便计算节点可以在某些拓扑中与企业网络通信。
部署:防火墙测试 HPC Pack 2008 R2 Service Pack 1 中添加的测试。

验证专用和应用程序群集网络中网络适配器的防火墙是否已关闭(也就是说,这些网络适配器是否从 Windows 防火墙中排除)。 它还验证头节点上所需的入站和出站防火墙规则是否已正确配置。

有关详细信息,请参阅 HPC 群集网络中的 Windows 防火墙配置部分。
部署:端口开放测试 Service Pack 1 的 HPC Pack 2008 R2 中添加了测试。

验证 Windows 防火墙中是否打开了以下 TCP 端口:

- 1856
- 6729
- 6730
- 9094
- 9095
- 9096
- 9794
- 9892
- 9893
- 9894

有关 HPC Pack 在头节点上的群集服务与群集中的其他节点之间通信所需的端口的信息,请参阅 HPC 群集网络中的 Windows 防火墙配置部分。
部署:绑定顺序测试 Service Pack 1 的 HPC Pack 2008 R2 中添加了测试。

验证企业网络是否设置为默认网络网关上的绑定顺序中的第一个。 如果在企业网络之前列出了专用网络,这可能会导致与企业网络上的 Active Directory 域控制器通信时出现问题。
部署:HA 虚拟网络资源测试 Service Pack 1 的 HPC Pack 2008 R2 中添加了测试。

如果在故障转移群集中配置头节点以实现高可用性,请验证故障转移群集的虚拟网络资源是否已正确配置。 在故障转移群集中配置头节点后,由于故障转移群集未绑定到单个物理服务器,因此它不能具有物理服务器的名称和 IP 地址。 故障转移群集必须具有虚拟头节点名称和与故障转移群集中两个头节点的物理名称和 IP 地址不同的相应虚拟 IP 地址。 这样,企业和专用网络上的通信就可以与虚拟名称和 IP 地址在任何给定时间处于活动状态的头节点联系,确保在活动头节点发生故障且功能切换到被动头节点时通信不会中断。

有关详细信息,请参阅 配置Microsoft HPC Pack 以实现头节点的高可用性。

MPI 性能

消息传递接口(MPI)ping-pong 测试通过反复在配对节点之间发送数据包来测量群集上的节点之间的网络延迟和吞吐量。 延迟是数据包在一对节点(以微秒为单位)之间往返所需的时间的一半的平均时间。 吞吐量是一对节点之间的数据传输的平均速率(以 MB/秒为单位)。 运行 MPI 乒乓球测试时,可以指定要使用的运行模式和网络。

重要

若要使用 MPI 乒乓球测试获取准确的结果,请在 串行 模式(如果可用)中运行测试,并确保节点未运行作业。 如果节点正在运行作业,则测试不会返回延迟和吞吐量的准确度量值。

正在运行的模式参数具有以下值:

  • :在环测试(也称为最近的邻居测试)中,节点一次以环形模式向彼此发送数据包一对。 当一对节点运行测试时,所有其他节点保持空闲状态。 第一个节点与其直接邻居配对。 当第一对上的测试完成时,下一个节点与邻居类似。 此顺序配对和测试将继续进行,直到测试涵盖 HPC 群集中的所有节点,每个节点已与两个相邻节点配对,一个在环周围的每个方向。

    可以使用 Ring 模式,以最少的时间获取 HPC 群集性能的合理指示。 环测试所需的时间比串行或锦标赛式测试要短,因为每个节点仅使用两个相邻节点(而不是群集中的所有节点)进行测试。

  • 串行:串行模式一次在一个节点对上运行 MPI 乒乓球测试。 当一对节点运行测试时,所有其他节点保持空闲状态。 当一对节点完成测试时,测试将针对另一对节点运行,并且单个对的此测试将连续进行,直到测试所有可能的节点对。

    当 HPC 群集具有少量节点时,可以使用 串行 模式彻底测试节点之间的所有单个网络链接。 此模式提供最准确的延迟或吞吐量度量值。 由于串行测试一次在一对节点的所有可能对上运行 MPI 乒乓球测试,因此对于大量节点,测试可能需要很长时间。

  • 锦标赛:锦标赛模式在多个回合中运行 MPI 乒乓球测试,类似于锦标赛。 在每个回合中,HPC 群集对中的所有节点都关闭。 每对中的两个节点相互发送数据包,所有对并行交换数据包。 当一轮完成时,另一轮将开始,使用与前一轮中使用的节点配对不同的一组节点。 舍入将继续,直到测试所有可能的节点对。 此模式下的测试完成速度最快,网络交换机负载最高。

    可以使用 锦标赛 模式来测试指定网络的基础结构,以及它在加载时的表现。 测量的延迟和吞吐量是已加载群集的延迟和吞吐量,因此可能无法与制造商的网络硬件规格进行比较。

注意

可以使用其他参数运行测试,并使用 mpipingpong 命令获取其他输出。

诊断 描述
MPI 乒乓球:延迟 此测试测量节点到节点通信的带宽和延迟。 由于这是性能测试,若要获得准确的结果,请在脱机且未运行其他作业的节点上运行此测试。

参数: 可以指定要用于测试和运行模式的网络。

默认情况下,此测试在 锦标赛 模式下运行。 使用 锦标赛 模式测量延迟时,测试将很少的干扰引入到每个轮的同时延迟度量中,因为数据包很小,因此甚至大量过度订阅的网络交换机也不会妨碍数据包。 若要获取更准确的延迟度量,如有必要,请使用 串行 模式以串行方式测试所有对。
MPI Ping Pong:吞吐量 测量群集上相邻节点之间的网络吞吐量。

参数: 可以指定要用于测试和运行模式的网络(串行锦标赛)。

默认情况下,此测试在 串行 模式下运行。
MPI Ping Pong:简单吞吐量 测量群集上相邻节点之间的网络吞吐量。

参数: 可以指定要用于测试的网络。

仅使用 Ring 模式测量群集中相邻节点对之间的吞吐量。 这为跨指定网络的连接提供合理的验证。 有关更准确的吞吐量度量,请运行 MPI Ping Pong:吞吐量 测试。

网络状态

此套件中的测试可帮助你验证群集网络的配置。 没有可以为这些测试配置的参数。

诊断 描述
防火墙配置报告 报告所选节点的防火墙状态(启用或禁用)。 此测试还会报告允许通过防火墙(防火墙例外)访问的应用程序或服务,包括所使用的端口号。

另请参阅 了解 HPC Networks 的防火墙配置
网络配置报告 报告每个所选节点的网络适配器配置。

网络故障排除

此套件中的测试可帮助你验证群集节点的网络连接。

诊断 描述
DNS 测试 验证所选节点之间的域名系统(DNS)名称解析。
域连接测试 验证所选节点与每个域控制器之间的连接。
Ping 测试 通过对所选节点和所选组中所有其他节点执行 ping 测试来验证所选节点之间的网络连接。

参数: 可以指定要用于测试的网络以及每个节点的 ping 数。

注意

HPC Pack 工具包包括网络故障排除报告,这是一项额外的诊断测试,用于收集和分析基于 HPC Pack 的群集中的网络信息,以帮助排查网络问题。 如果你有 InfiniBand 网络,则报告还包括该网络中主机通道适配器(HCA)卡的状态和功能。 有关详细信息,请参阅 安装和使用网络故障排除报告诊断测试

服务业

此套件中的测试和报告可帮助你验证所需的 HPC 服务是否在所选节点上运行,并排查服务错误。

诊断 描述
服务配置报告 报告所选节点上安装的所有正在运行的服务及其启动配置设置。
服务状态报告 报告所选节点事件日志中的 HPC 事件。

参数: 可以指定 小时计数,以指示检查事件日志(1 到 50 小时前)的距离。 还可以通过设置 日志计数 参数(1-100)来限制要报告的事件数。
运行测试的服务 验证 HPC 服务是否在所选节点上运行。 预期服务由目标节点(头节点、计算节点或 WCF 代理节点)的角色确定。 如果存在可选服务,则此测试可能会报告可选服务的状态,但只会根据所需的服务进行验证。

SOA

SOA 服务加载测试 验证指定服务的 DLL 是否可以加载到指定节点上,以及 DLL 的任何检测到的依赖项都存在于节点上。 默认情况下,此测试使用内置的 CcpEchoSvc 服务来验证群集上的 SOA 功能。

若要验证是否可以加载特定服务,可以在测试参数中指定服务的名称。 运行 SOA 服务加载测试时,在 配置中,在 Microsoft HPC Pack中管理 SOA 服务 中,所选的服务会自动在测试的参数中指定。

系统配置

此套件中的报表提供有关所选节点上的应用程序配置和软件更新的信息。

诊断 描述
活动电源方案报告 在 HPC Pack 2012 中添加了 测试。

报告活动电源方案(计划),并列出在所选节点上的操作系统中配置的所有现有电源方案。
应用程序配置报告 报告安装在所选节点上的应用程序(包括版本号)。 结果包括一个表,其中列出了所有已安装的应用程序,以及已安装该应用程序的节点计数。 还可以按节点查看结果。
节点报表的可用软件更新 报告可用于所选节点的软件更新。 测试报告 Windows Server Update Services(WSUS)或Microsoft更新标识为关键更新的更新。 诊断与 Microsoft Update 客户端通信,该客户端会筛选更新,以便仅向诊断报告与节点相关的更新。

如果未在计算节点上设置 winhttp 代理,则此测试将失败。 运行 netsh winhttp show proxy 命令以确定节点是否已设置代理服务器。

有关使用企业 WSUS 服务器或使用节点模板应用更新的详细信息,请参阅 更新节点的最佳做法主题
HPC 软卡 KSP 测试 Service Pack 2 的 HPC Pack 2008 R2 中添加了测试。

报告 HPC 软卡密钥存储提供程序(KSP)是否安装在所选群集节点上。 此设置在节点上运行任务时启用软卡身份验证。

KSP 是一个单独的安装,仅安装在头节点和计算节点上。 它不需要安装在客户端节点上。

KSP 组件用于对计算节点上运行的任务执行智能卡登录。 KSP 仅在运行任务的计算机上使用。

如果测试失败:此计算机上未安装 HPC 软卡 KSP。有关安装它以启用软卡身份验证的信息,请参阅 Microsoft HPC Pack 发行说明。

如果测试通过:此计算机上安装 HPC 软卡 KSP。
模板报表中缺少/所需的软件更新 将安装在所选节点上的软件更新与节点模板中 应用更新 任务中指定的更新进行比较。 报告指示任何计算节点是否未能满足所需的更新级别(无、严重、全部),或缺少节点模板中定义的特定更新。

如果此诊断报告缺少所需的更新,请使指示的节点脱机并运行 维护 操作。 请参阅 在节点上运行维护任务。

节点模板必须包含 应用更新 任务才能运行此测试。 如果节点模板不包含此任务,则可以运行节点报表 可用软件更新以查看可用更新列表,也可以将任务添加到节点模板。 有关将更新任务添加到节点模板的信息,请参阅 将“应用更新任务”添加到节点模板
节点上安装的软件更新报告 报告在所选节点上安装的更新。

Windows Azure

在 HPC Pack 2008 R2 和 Service Pack 2 中添加了 Suite。

此套件中的测试可帮助你验证是否可以在群集中的 Windows Azure 节点上部署和运行作业。

诊断 描述
Windows Azure 防火墙端口测试 执行简单的测试,以验证通过任何现有内部和外部防火墙从头节点到 Windows Azure 的通信。 此测试始终使用默认诊断测试凭据运行。 可以在部署 Windows Azure 节点之前运行此测试,以帮助确保将任何现有防火墙配置为允许头节点和 Windows Azure 之间的部署、计划程序以及代理通信。

此测试检查从头节点到 Windows Azure 中 hpcazureportcheck.cloudapp.net 服务的所选 TCP 端口上的出站通信。 hpcazureportcheck.cloudapp.net 服务由Microsoft托管,以提供此测试的通信终结点。 重要提示: hpcazureportcheck.cloudapp.net 与用于 Windows Azure 节点部署的任何 Windows Azure 托管服务无关。 无需在群集中部署 Windows Azure 节点,因为它仅由 Windows Azure 防火墙端口测试使用。

测试检查的防火墙端口是头节点上安装的 HPC Pack 版本所需的端口(从 HPC Pack 2008 R2 和 SP2 开始)。 如果已安装 HPC Pack 2008 R2 和 SP2,则会测试以下 TCP 端口上的通信:

- 80
- 443
- 3389
- 5901
- 5902
- 7998
- 7999

如果已安装至少具有 SP3 的 HPC Pack 2008 R2,则默认情况下会测试以下 TCP 端口上的通信:

- 443
- 3389 重要提示:
  • 失败可以指示企业防火墙阻止了端口。 如果已取消阻止所有列出的端口,但仍看到故障,则可能意味着代理服务器或客户端、软件防火墙或其他管理 Internet 流量的设备未配置为允许 HPC 服务与 Windows Azure 通信。
  • 成功的测试结果不能保证头节点可以与用于 Windows Azure 节点部署的托管服务正确通信。
  • 如果选择为此测试启用防火墙访问,建议启用对 hpcazureportcheck.cloudapp.net 主机名(而不是其 IP 地址)的访问,因为后者可能会更改。
  • 如果在 EAST HPC Pack 2008 R2 上安装 SP3,则可以配置注册表设置,以便头节点使用具有 SP2 的 HPC Pack 2008 R2 所需的网络防火墙端口与 Windows Azure 通信,而不是使用 SP3 的 HPC Pack 2008 R2 所需的默认端口。 如果执行此操作,测试会检查 HPC Pack 2008 R2 与 SP2 所需的端口上的通信。


有关 Windows Azure 防火墙端口的详细信息,请参阅 Microsoft HPC Pack中的 Windows Azure 节点 要求。
Windows Azure MPI 通信测试 在 Windows Azure 节点对之间运行简单的 ping-pong 测试,以确保 MPI 通信正常工作。 此测试仅在 Windows Azure 节点上和同一部署中的节点上运行。
Windows Azure 报表 报告已部署的 Windows Azure 节点的角色实例的名称。 重要提示: 安装 HPC Pack 2008 R2 SP3 后,此测试不再提供 Windows Azure 节点的角色实例的名称。 若要解决此问题,可以在要查看名称的每个节点上运行以下命令:Set COMPUTERNAME 也可以使用 clusrun 命令,或创建新的诊断测试,在一组节点上运行此命令。
Windows Azure 服务连接测试 使用 Windows Azure 节点模板中指定的订阅 ID 和证书验证头节点上运行的服务是否可以连接到 Windows Azure。 此测试始终使用默认诊断测试凭据运行。

参数: 可以指定要用于测试的节点模板。 默认情况下,此测试使用所有节点模板。
Windows Azure 虚拟网络测试 在 HPC Pack 2012 中添加了 测试。

执行测试以验证所有 Windows Azure 节点模板中配置的 Windows Azure 虚拟网络站点是否有效。

没有可以为此测试配置的参数。

其他参考