排查 Linux 计算节点代理扩展安装失败的问题
本文介绍如何排查 HPC Pack Linux 节点代理扩展在高性能计算(HPC)群集中的节点上未成功安装的情况。
故障排除清单
若要排查在 Linux 计算节点上安装 Microsoft.HpcPack.LinuxNodeAgent2016U1 扩展失败的问题,请检查扩展日志文件,然后在基础结构即服务(IaaS)虚拟机(VM)上安装新的 Linux 计算节点。
步骤 1:检查扩展日志
扩展日志文件可能有助于确定节点代理未成功安装的原因。 若要查找和查看扩展日志文件,请执行以下步骤:
打开管理 PowerShell 控制台。
运行以下命令,在头节点上启用安全外壳(SSH)连接功能:
dism /Online /Add-Capability /CapabilityName:OpenSSH.Server~~~~0.0.1.0 Start-Service sshd Set-Service -Name sshd -StartupType 'Automatic' Set-Service -Name ssh-agent -StartupType 'Automatic' Start-Service ssh-agent
在头节点上运行以下命令以登录到 Linux 计算节点:
ssh <domain-administrator-name>@<private-ip-address-of-linux-compute-node>
输入域管理员的帐户密码。
运行以下命令,验证该节点上是否存在扩展日志文件:
sudo su ls -la /var/log/azure/Microsoft.HpcPack.LinuxNodeAgent2016U1/extension.log
运行或打开首选文本查看器或编辑器,然后显示扩展日志文件的内容。
步骤 2:执行本地测试以突发到 IaaS VM
若要在本地测试如何突发到 IaaS VM,请执行以下步骤:
按照步骤 创建 Azure IaaS 节点模板。 到达 模板创建向导的“指定 VM 映像 ”部分时,请在创建节点模板之前指定以下设置。
字段名称 值 映像类型 MarketplaceImage OS 类型 Linux 图像标签 Red Hat Enterprise Linux 7.8 按照步骤 创建 IaaS 计算节点并对其进行管理。 到达 “添加节点”向导的“指定新节点 ”部分时,请在完成添加节点之前指定以下设置。
字段名称 值 节点模板 前面创建的节点模板的名称。 节点数 1 节点的 VM 大小 A1 (1 核,1.75 GB 内存) 按照步骤 在 HPC 群集管理器中创建新作业 。 到达“资源选择”部分时,在“可用节点组”列表中选择 LinuxNodes,然后选择“添加”按钮将项移动到“所选节点组”列表。 提交新作业后,将正确预配 Linux 节点。
联系我们寻求帮助
如果你有任何疑问或需要帮助,请创建支持请求或联系 Azure 社区支持。 你还可以将产品反馈提交到 Azure 反馈社区。