HPC 计算节点未显示或处于错误状态

本文提供了在 Azure 上部署高性能计算(HPC)群集时未显示或处于错误状态的问题的解决方案。

现象

在 Azure 上部署 HPC 群集时,部署成功,但计算节点未显示或处于错误状态。 计算节点上的 HpcNodeManager 服务日志中会显示证书和与网络相关的错误。

下面是网络错误示例:

System.Net.Sockets.SocketException:连接尝试失败,因为连接方在一段时间后未正确响应,或已建立的连接失败,因为连接主机未能响应 x.x.x.x:xxx

原因

出现此问题的原因是网络配置问题或某种类型的证书不匹配。

解决方法

检查计算节点上 HpcNodeManager 服务日志中的网络和证书错误。

如果存在任何证书,则正确不匹配。 有关详细信息,请参阅 管理 HPC Pack 2019 群集的证书。

若要解决上述错误的网络问题,请配置网络安全组规则和防火墙规则。 有关详细信息,请参阅 HPC Pack 群集中突发到 Azure IaaS VM 的“为 Azure 虚拟网络配置网络安全组”部分。

联系我们寻求帮助

如果你有任何疑问或需要帮助,请创建支持请求联系 Azure 社区支持。 你还可以将产品反馈提交到 Azure 反馈社区