你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是适用于 Slurm 的 Azure CycleCloud 工作区?

Slurm 是用于 AI/HPC 和云计算的最常用且广泛使用的开源工作负荷管理器之一。 使用 Slurm,用户可以跨一组计算节点运行大规模并行和分布式应用程序,并提供作业计划、资源管理、容错和电源管理等功能。 斯卢姆被世界上许多顶级超级计算机、研究机构、大学和企业使用。

但是,在云上设置和管理 Slurm 群集可能具有挑战性且耗时,尤其是对于不熟悉云环境或 Slurm 配置的用户。 用户必须处理预配和缩放计算节点、安装和更新 Slurm 软件、配置网络和存储、监视群集运行状况和性能以及排查问题等任务。 这些任务可以分散用户的核心研究或业务目标,并减少 AI/HPC 工作负载的工作效率和效率。

适用于 Slurm 的 Azure CycleCloud 工作区是一个 Azure 市场解决方案模板,允许用户在 Azure 上使用 CycleCloud 轻松创建、配置和部署预定义的 Slurm 群集,而无需事先了解 Azure 或 Slurm。 Slurm 群集将预配置 PMix v4、Pyxis 和 enroot 以支持容器化 AI/HPC Slurm 作业。 用户可以使用 SSH 或 Visual Studio Code 访问预配的登录节点,以执行常见任务,例如提交和管理 Slurm 作业。

虽然 Azure CycleCloud 已经允许你执行其中一些操作,但它不会为你部署 AI/HPC 基础结构。 用户必须处理安装和配置 CycleCloud、配置网络和存储以及创建和配置 Slurm 群集等任务。 Azure CycleCloud Workspace for Slurm 在市场解决方案模板中为你执行这些任务,该模板可以直接从 Azure 门户或通过 Azure CLI 进行部署。 你将在几分钟内准备就绪,而不是几天或几周。

适用于 Slurm 的 Azure CycleCloud 工作区有什么好处?

若要在 Azure 中构建 AI/HPC 环境,可以提升和转移某些本地 AI/HPC 工作负载或构建新环境,Azure CycleCloud 是一个很好的解决方案。 但是,构建完整的端到端 AI/HPC 环境并不是一项简单的任务,你必须决定如何设计网络、要用作共享文件系统的存储组件、用于运行工作负荷的 VM 类型以及许多可能使项目复杂交付的小事项。

适用于 Slurm 的 Azure CycleCloud 工作区为想要在 Azure 上运行 Slurm 工作负荷的用户提供多项优势,例如:

  • 简单快速的群集创建:用户可以在几分钟内在 Azure 上创建 Slurm 群集,方法是遵循 GUI 中的几个简单步骤。 与过去没有适用于 Slurm 的 Azure CycleCloud 工作区的天数或周数进行比较。 用户可以从各种 Azure 虚拟机(VM)大小和类型中进行选择,并自定义群集设置,例如节点数、网络配置、从 Azure NetApp 文件到 Azure 托管 Lustre 文件系统的存储选项以及 Slurm 参数。

  • 灵活且动态的群集管理:Slurm 群集将由 Azure CycleCloud 纵向扩展或缩减。 用户还可以监视群集状态、性能和利用率,以及查看 GUI 中的群集日志和指标。 用户还可以在不再需要其 Slurm 群集时删除其 Slurm 群集,并仅为其使用的资源付费。

如何为 Slurm 创建 Azure CycleCloud 工作区?

可以从 Azure 市场或使用 Azure CLI 部署适用于 Slurm 的 Azure CycleCloud 工作区。 若要从市场部署,请先搜索 Slurm,然后单击“创建”按钮。 若要使用 Azure CLI 进行部署,必须先创建输入参数文件,然后使用 az deployment sub create 命令进行部署。 有关如何使用 CLI 部署 CycleCloud Slurm 工作区环境,请参阅此处的详细说明

Slurm 的 Azure CycleCloud 工作区不是?

适用于 Slurm 的 Azure CycleCloud 工作区不是 PaaS 服务:整个基础结构将部署在租户中,从而允许部署所有(绿地部署)或指定要重复使用的现有资源(棕色区域部署),例如目标资源组、虚拟网络、Azure NetApp 文件等。

用于 Slurm 部署环境的 Azure CycleCloud 工作区的外观

概述体系结构

下面是 Azure CycleCloud Workspace for Slurm 将部署的内容的典型体系结构。 将有必需的资源,例如用于运行 CycleCloud 的虚拟机、用户主目录的共享文件系统、CycleCloud 项目存储的存储帐户。

虚拟网络可由用于 Slurm 的 Azure CycleCloud 工作区部署,也可以部署一个将在其中创建资源的现有虚拟网络。 (可选)将在自己的子网中创建 Azure 托管 Lustre 文件系统。

如果公司安全规则不允许公共 IP(许多规则允许),则可以在通常的中心和辐射模式中创建与现有虚拟网络的 vnet 对等互连。 然后,中心将包含所有连接服务,例如虚拟网络网关或 Azure Bastion。

最后,在无公共 IP、无 VPN 环境中,需要 Bastion,并提供连接到登录节点中的 CycleCloud Web 门户和 SSH 的所有安全连接。

后续步骤