你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门 - 使用市场部署适用于 Slurm 的 Azure CycleCloud 工作区

适用于 Slurm 的 Azure CycleCloud 工作区是一个免费的市场应用程序,它提供一种简单、安全且可缩放的方式来管理 HPC 和 AI 工作负载的计算和存储资源。 在本快速入门中,你将使用市场应用程序安装 CycleCloud Workspace for Slurm。

先决条件

对于本快速入门,需要:

  1. 具有活动订阅的 Azure 帐户
  2. 订阅级别的 参与者用户访问管理员 角色

如何部署?

  • 登录到 Azure 门户
  • 单击左上角 + Create a Resource 选项
  • Search services and marketplace 框中,输入 Slurm,然后选择 Azure CycleCloud Workspace for Slurm
  • 在 Slurm Azure CycleCloud 工作区页上,选择 创建

适用于 Slurm 市场 的 Azure CycleCloud 工作区的 屏幕截图

基本

  • Slurm 帐户的新 Azure CycleCloud 工作区 页上,输入或选择以下详细信息。
    • 订阅:选择要使用的订阅(如果尚未选择)。
    • 区域:选择要在其中部署 Slurm 环境的 CycleCloud 工作区的 Azure 区域。
    • 资源组:为 Slurm 帐户选择 Azure CycleCloud 工作区的资源组,或创建新的资源组。
    • CycleCloud VM 大小:选择新的 VM 大小或保留默认 VM 大小
    • 管理员用户:输入 CycleCloud 管理员帐户的名称和密码。
    • 管理员 SSH 公钥:直接选择管理员帐户的公共 SSH 密钥,或者如果存储在 Azure 中的 SSH 密钥资源中。

“基本信息”选项屏幕的屏幕截图

文件系统

用户的主目录 - 新建

指定用户的主目录应位于的位置。 创建新的 Builtin NFS 将使用计划程序 VM 作为具有附加数据磁盘的 NFS 服务器。 /shared 和 /home Builtin NFS 文件系统装载的屏幕截图,

创建新的 Azure NetApp 文件 将创建指定容量和服务级别的 ANF 帐户、池和卷。 /shared 和 /home Azure NetApp 文件的文件系统装载的屏幕截图,

用户的主目录 - 使用现有目录

如果有现有的 NFS 装入点,请选择 使用现有 选项,并指定要装载它的设置。 /shared 和 /home 的文件系统装载的屏幕截图,使用外部 NFS 选项屏幕

其他文件系统装载 - 新建

如果需要为项目数据装载其他文件系统,可以创建新的文件系统或指定现有文件系统。 可以创建新的 Azure NetApp 文件卷或 Azure 托管 Lustre 文件系统。

用于创建新的 Azure NetApp 文件 的附加文件系统装载的屏幕截图

用于创建新的 Azure 托管 Lustre 的其他文件系统装载的屏幕截图

其他文件系统装载 - 使用现有

如果有现有的外部 NFS 装入点或 Azure 托管 Lustre 文件系统,则可以指定装载选项。

现有外部 NFS 附加文件系统装载的屏幕截图

联网

如果要创建新的虚拟网络和子网或使用现有虚拟网络和子网,请在此处指定。

创建新的虚拟网络

用于创建新 的网络选项的屏幕截图

  • 选择与目标计算节点数匹配的 CIDR,并指定基 IP 地址,
  • 如果你没有公司 IT 提供的直接连接,则创建 Bastion 是最佳做法。
  • 创建 NAT 网关需要提供到 Internet 的出站连接。 这将在2025年成为强制性的,并已被一些公司实施的想法政策,
  • 如果已有一个中心,则与现有虚拟网络建立对等互连,以便提供 Bastion 和 VPN 网关等服务。 请小心选择与对等互连 VNET 兼容的基 IP 地址。 检查对等互连 VNET 是否具有网关的“允许网关传输”。

使用现有虚拟网络

在使用现有虚拟网络之前,请检查 规划 CycleCloud 工作区进行 Slurm 部署的先决条件

使用现有 的网络选项的屏幕截图

Slurm 设置

指定要用于计划程序和登录节点的 VM 大小和映像。 映像是 Azure 市场中提供的 HPC 映像,其中包含关联的 URI:

映像名称 URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
自定义映像 必须指定映像 URN 或映像 ID

如果选择 Custom Image 则必须为现有市场映像指定映像 URN,或者为 Azure 计算库中的映像指定映像 ID。

还可以检查 Use image on all nodes 是否希望计划程序、登录节点和计算节点使用相同的映像。

设置一开始要预配的登录节点数和最大数目。 最后,启用运行状况检查将执行 HPC 和 GPU 分区的节点运行状况检查,以便在它们启动时自动删除不正常的节点。

Slurm 设置 的屏幕截图

如果要启用 Slurm 作业会计,请选中此复选框以显示连接选项。 请注意,需要具有以前部署的 Azure Database for MySQL 灵活服务器资源。 如果选择提供自己的虚拟网络,或者在部署过程中创建新虚拟网络时使用 VNET 对等互连,则通过提供 FQDN 或专用 IP 进行连接。 此外,如果选择创建新的虚拟网络,可通过专用终结点进行连接。

作业会计数据库的 Slurm 设置选项的屏幕截图,直接 FQDN

专用终结点 作业会计数据库的 Slurm 设置选项的屏幕截图

分区设置

适用于 Slurm 的 Azure CycleCloud 工作区附带 3 个定义的 Slurm 分区:

  • TC:对于非 MPI 作业,
  • HPC:对于紧密耦合的 MPI 作业,主要使用具有 InfiniBand 支持的 VM 类型,
  • GPU:适用于 MPI 和非 MPI GPU 作业

可以为每个分区设置 CycleCloud 动态预配的映像和最大节点数。 只有 GPU 分区才允许使用现成实例,因为通常不是将现成实例用于 HPC 和 GPU 作业的最佳做法。 但是,在 CycleCloud UI 中的部署后,可以重写这些设置。

分区设置选项的 屏幕截图

标签

为所需的资源设置相关标记。 Node Array 标记将应用于 CycleCloud 动态预配的虚拟机。

“标记”选项的 屏幕截图

Review+Create

查看选项。 此步骤还将处理一些验证。 审阅 的 屏幕截图

传递后,单击“创建”按钮以初始化部署 正在进行的部署的屏幕截图

按照部署状态和步骤操作。

检查部署

将 Bastion 与部署期间指定的用户名和 SSH 密钥一起使用连接到 ccw-cyclecloud-vm

“使用 Bastion 连接”菜单的屏幕截图 “使用 Bastion 连接”选项

连接后,请检查 cloud-init 日志以验证所有内容是否正确。

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

然后,在客户端计算机与 CycleCloud VM 之间建立连接。 这可以来自公司 IT、VPN、Bastion 隧道、附加的公共 IP(如果公司允许)。 通过浏览到 https://<cycleccloud_ip>连接到 Web 界面,并使用部署期间提供的用户名和密码进行身份验证。 确认计划程序和登录节点都正在运行。

连接到登录节点

使用 Bastion 时,请使用其中一个实用工具脚本 util/ssh_thru_bastion.shutil/tunnel_thru_bastion.sh 进行连接,此处提供。 如果不使用 Bastion,则必须自行建立直接连接。