排查 Linux 计算节点代理扩展安装失败的问题

本文介绍如何排查 HPC Pack Linux 节点代理扩展在高性能计算(HPC)群集中的节点上未成功安装的情况。

故障排除清单

若要排查在 Linux 计算节点上安装 Microsoft.HpcPack.LinuxNodeAgent2016U1 扩展失败的问题,请检查扩展日志文件,然后在基础结构即服务(IaaS)虚拟机(VM)上安装新的 Linux 计算节点。

步骤 1:检查扩展日志

扩展日志文件可能有助于确定节点代理未成功安装的原因。 若要查找和查看扩展日志文件,请执行以下步骤:

  1. 打开管理 PowerShell 控制台。

  2. 运行以下命令,在头节点上启用安全外壳(SSH)连接功能:

    dism /Online /Add-Capability /CapabilityName:OpenSSH.Server~~~~0.0.1.0
    Start-Service sshd
    Set-Service -Name sshd -StartupType 'Automatic'
    Set-Service -Name ssh-agent -StartupType 'Automatic'
    Start-Service ssh-agent
    
  3. 在头节点上运行以下命令以登录到 Linux 计算节点:

    ssh <domain-administrator-name>@<private-ip-address-of-linux-compute-node>
    
  4. 输入域管理员的帐户密码。

  5. 运行以下命令,验证该节点上是否存在扩展日志文件:

    sudo su ls -la /var/log/azure/Microsoft.HpcPack.LinuxNodeAgent2016U1/extension.log
    
  6. 运行或打开首选文本查看器或编辑器,然后显示扩展日志文件的内容。

步骤 2:执行本地测试以突发到 IaaS VM

若要在本地测试如何突发到 IaaS VM,请执行以下步骤:

  1. 按照步骤 创建 Azure IaaS 节点模板。 到达 模板创建向导的“指定 VM 映像 ”部分时,请在创建节点模板之前指定以下设置。

    字段名称
    映像类型 MarketplaceImage
    OS 类型 Linux
    图像标签 Red Hat Enterprise Linux 7.8
  2. 按照步骤 创建 IaaS 计算节点并对其进行管理。 到达 “添加节点”向导的“指定新节点 ”部分时,请在完成添加节点之前指定以下设置。

    字段名称
    节点模板 前面创建的节点模板的名称。
    节点数 1
    节点的 VM 大小 A1 (1 核,1.75 GB 内存)
  3. 按照步骤 在 HPC 群集管理器中创建新作业 。 到达“资源选择”部分时,在“可用节点组列表中选择 LinuxNodes,然后选择“添加”按钮将项移动到所选节点组”列表。 提交新作业后,将正确预配 Linux 节点。

联系我们寻求帮助

如果你有任何疑问或需要帮助,请创建支持请求联系 Azure 社区支持。 你还可以将产品反馈提交到 Azure 反馈社区