你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 基础结构 (IaaS) 上的 AI 工作负荷网络建议
本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供网络建议。 设计一个经优化的网络可以提高数据处理速度,减少延迟,并确保网络基础结构能够满足不断增长的 AI 需求。
确保有足够的带宽
足够的带宽是指网络在不出现延迟或中断的情况下处理大量数据的能力。 高带宽可确保本地系统与 Azure 之间快速、不间断的数据传输,支持快速的 AI 模型训练并减少管道中的停机时间。 对于将大型数据集从本地转移到云进行 AI 模型训练的组织而言,高带宽连接必不可少。 使用 Azure ExpressRoute 在本地网络和 Azure 之间建立专用、安全、可靠的高速连接。
尽量减少延迟
尽量减少延迟包括减少网络资源之间的数据传输延迟。 更低的延迟可提供更快的数据处理,实现实时见解,并提高对延迟敏感的工作负荷的性能。
优化资源布局。 为了最大程度地减少 AI 工作负荷(例如数据预处理、模型训练和推理)的延迟,请在同一 Azure 区域或可用性区域中部署虚拟机(VM)。 并置资源可缩短物理距离,从而提高网络性能。
使用邻近放置组 (PPG)。 对于需要实时处理或快速进程间通信的延迟敏感型工作负荷,可利用 PPG 在 Azure 数据中心内进行物理资源并置。 PPG 可确保计算、存储和网络资源紧密结合,从而尽可能减少要求严苛的工作负荷的延迟。 业务流程解决方案和 InfiniBand 自动处理节点邻近度。
使用预配置的 Linux OS 映像。 从 Azure 市场选择预装了 InfiniBand 驱动程序、NVIDIA 驱动程序、通信库和监控工具的 Linux OS 映像,从而简化群集部署。 这些映像针对性能进行了优化,可与 Azure CycleCloud 一起部署,以便快速、高效地创建群集。
实现高性能网络
高性能网络利用高级网络功能来支持大规模、密集型 AI 计算,特别是 GPU 加速的任务。 高性能网络可确保 GPU 之间快速、高效的数据交换,从而优化模型训练并加快 AI 开发周期。
利用 InfiniBand 来处理 GPU 工作负荷。 对于依赖 GPU 加速和跨多个 GPU 的分布式训练的工作负荷,可使用 Azure 的 InfiniBand 网络。 InfiniBand 的 GPUDirect 远程直接内存访问 (RDMA) 功能支持 GPU 与 GPU 之间的直接通信。 它可以提高数据传输的速度和模型训练的效率。 使用适当的 VM SKU 时,业务流程解决方案(如 Azure CycleCloud 和 Azure Batch)处理 InfiniBand 网络配置。
选择 Azure 的 GPU 优化 VM。 选择使用 InfiniBand 的 VM(如 ND 系列 VM),它们专为高带宽、低延迟的 GPU 间通信而设计。 这种配置对于可缩放的分布式训练和推理至关重要,可加快 GPU 之间的数据交换。
优化大规模数据处理
优化大规模数据处理涉及管理大量数据传输和高计算负荷的策略。 通过使用数据和模型并行性,可以缩放 AI 工作负荷并提高处理速度。 使用 Azure 经过 GPU 优化的虚拟机来处理复杂的数据密集型 AI 工作负荷。
应用数据或模型并行技术。 要管理多个 GPU 之间的大量数据传输,可根据 AI 工作负荷的需要来实现数据并行化或模型并行化。 确保使用高带宽内存 (HBM),它具有高带宽、低功耗和设计紧凑的特点,是高性能工作负荷的理想之选。 HBM 支持快速数据处理,这对需要处理大型数据集的 AI 工作负荷至关重要。
使用高级 GPU 网络功能。 对于要求严苛的 AI 方案,则可选择 NDH100v5 和 NDMI300Xv5 等 Azure VM。 Azure 在虚拟机规模集内为这些 VM 配置了专用的 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接支持 GPU 直接 RDMA,可实现 GPU 到 GPU 的直接数据传输,从而减少延迟并提高整体系统性能。