你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

ND-H100-v5 大小系列

ND H100 v5 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 该系列专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展生成式 AI 和 HPC 工作负载而设计。

ND H100 v5 系列的起步配置是一个 VM 和八个 NVIDIA H100 Tensor Core GPU。 基于 ND H100 v5 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 3.2 Tbps。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPU Direct RDMA。

每个 GPU 都配备用于 VM 内通信的 NVLINK 4.0 连接,实例有 96 个物理第四代 Intel Xeon 可扩展物理处理器核心。

这些实例为众多 AI、ML、支持 GPU 加速的“现成分析工具”(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,横向扩展 InfiniBand 互连支持一大组基于 NVIDIA 的 NCCL 通信库构建的现有 AI 和 HPC 工具,以便实现无缝的 GPU 群集化。

主机规格

组成部分 数量
计数单位
规格
SKU ID、性能单位等
处理器 96 个 vCPU Intel Xeon (Sapphire Rapids) [x86-64]
内存 1900 GiB
本地存储 1 个磁盘 28000 GiB
远程存储 32个磁盘
网络 8个 NIC
加速器 8 个 GPU Nvidia H100 GPU (80GB)

功能支持

高级存储:支持
高级存储缓存:支持
实时迁移:不支持
内存保留更新:不支持
第 2 代 VM:支持
第 1 代 VM:不支持
加速网络:支持
临时 OS 磁盘:支持
嵌套虚拟化:不支持
Infiniband:受支持

重要

若要开始使用 ND H100 v5 VM,请参阅 HPC 工作负荷配置和优化,了解包括驱动程序和网络配置在内的步骤。 由于 GPU 内存 I/O 占用量增加,ND H100 v5 需要使用第 2 代 VM 和市场映像。

Azure 支持 ND H100 v5 VM 的 Ubuntu 20.04/22.04、RHEL 7.9/8.7/9.3、AlmaLinux 8.8/9.2 和 SLES 15。 目前支持 Ubuntu-HPC 20.4/22.04 和 AlmaLinux-HPC 8.6/8.7 VM 映像。

为已安装各种 HPC 工具和库的 HPC/AI 工作负载提供了经过优化和预配置的 Linux VM 映像,因此强烈建议使用它们。

若要下载映像,请转到 Azure 市场

系列大小

每个大小的 vCPU(数量)和内存

大小名称 vCPU(数量) 内存 (GB)
Standard_ND96isr_H100_v5 96 1900

VM 基础知识资源

其他大小信息

所有可用大小的列表:大小

定价计算器:定价计算器

有关磁盘类型的信息:磁盘类型

后续步骤

了解有关 Azure 计算单元 (ACU) 如何帮助跨 Azure SKU 比较计算性能的详细信息。

请参阅 Azure 专用主机,了解能够托管一个或多个分配给一个 Azure 订阅的虚拟机的物理服务器。

了解如何监视 Azure 虚拟机