你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 基础结构上的 AI 实现选项

本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供实现建议。 在部署 Azure 登陆区域后,可以使用适用于 Slurm 的 CycleCloud 工作区来设置应用程序登陆区域。 适用于 Slurm 的 Azure CycleCloud 工作区为希望使用 Slurm 计划程序来运行 AI 工作负荷的用户提供了诸多优势。

  • 简单快捷的群集创建。 用户可以通过简单的 GUI 在 Azure 上快速创建 Slurm 群集。 他们可以选择各种 Azure 虚拟机 (VM) 大小和类型,并自定义群集设置,如节点计数、网络配置、存储选项(如 Azure NetApp 文件和 Azure Managed Lustre Filesstem)以及 Slurm 参数。

  • 灵活动态的群集管理。 Azure CycleCloud 可自动向上或向下扩展 Slurm 群集。 用户可通过 GUI 来监控群集状态、性能和利用率,并查看日志和指标。 它们可以在不需要时删除群集,只需为使用的资源付费。

  • 基础结构的完全控制。 用户可以完全控制已部署的基础结构,从而允许使用自己的代码、库和包,并按需使用资源。

设计指南

以下文章为 Azure 基础结构 (IaaS) 上的 AI 工作负荷提供了指导:

体系结构

显示了 Azure 登陆区域中 Azure 基础结构上的 AI 应用程序的示意图。图 1. Azure 登陆区域中 Azure 基础结构上的 AI 应用程序。

为 Slurm 部署 CycleCloud 工作区

适用于 Slurm 的 CycleCloud 工作区可用作企业环境中的初始部署。 你可以开发和自定义代码,以扩展其功能和/或使其适应你的 Azure 登陆区域环境。 然后,按照指导使用适用于 Slurm 的 Azure CycleCloud 微调来自 Hugging Face 的扩散模型

下一步