你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 基础结构上的 AI 实现选项
本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供实现建议。 在部署 Azure 登陆区域后,可以使用适用于 Slurm 的 CycleCloud 工作区来设置应用程序登陆区域。 适用于 Slurm 的 Azure CycleCloud 工作区为希望使用 Slurm 计划程序来运行 AI 工作负荷的用户提供了诸多优势。
简单快捷的群集创建。 用户可以通过简单的 GUI 在 Azure 上快速创建 Slurm 群集。 他们可以选择各种 Azure 虚拟机 (VM) 大小和类型,并自定义群集设置,如节点计数、网络配置、存储选项(如 Azure NetApp 文件和 Azure Managed Lustre Filesstem)以及 Slurm 参数。
灵活动态的群集管理。 Azure CycleCloud 可自动向上或向下扩展 Slurm 群集。 用户可通过 GUI 来监控群集状态、性能和利用率,并查看日志和指标。 它们可以在不需要时删除群集,只需为使用的资源付费。
基础结构的完全控制。 用户可以完全控制已部署的基础结构,从而允许使用自己的代码、库和包,并按需使用资源。
设计指南
以下文章为 Azure 基础结构 (IaaS) 上的 AI 工作负荷提供了指导:
体系结构
图 1. Azure 登陆区域中 Azure 基础结构上的 AI 应用程序。
为 Slurm 部署 CycleCloud 工作区
适用于 Slurm 的 CycleCloud 工作区可用作企业环境中的初始部署。 你可以开发和自定义代码,以扩展其功能和/或使其适应你的 Azure 登陆区域环境。 然后,按照指导使用适用于 Slurm 的 Azure CycleCloud 微调来自 Hugging Face 的扩散模型。