ND-H100-v5 大小系列
ND H100 v5 系列虛擬機器 (VM) 是 Azure GPU 系列新的主打產品。 此系列專為高階深度學習訓練所設計,緊密結合擴大和向外延展的生成式 AI 和 HPC 工作負載。
ND H100 v5 系列從單一 VM 和八個 NVIDIA H100 Tensor Core GPU 開始提供。 以 ND H100 v5 為基礎的部署可以擴大至數千個 GPU,每個 VM 的互連頻寬為 3.2 Tb/秒。 VM 內的每個 GPU 隨附自己專用、與拓撲無關的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 連線。 這些連線會在佔用相同虛擬機器擴展集的 VM 之間自動設定,並支援 GPU Direct RDMA。
每個 GPU 都配備 NVLINK 4.0 連線功能,可在 VM 內進行通訊,而且執行個體有 96 個實體第 4 代 Intel Xeon 可調整處理器核心。
這些執行個體可為許多支援 GPU 加速「現成可用」的 AI、ML 和分析工具提供絕佳的效能,例如 TensorFlow、Pytorch、Caffe、RAPIDS 和其他架構。 此外,向外延展的 InfiniBand 互連支援大量現有的 AI 和 HPC 工具,這些工具以 NVIDIA NCCL 通訊程式庫為建置基礎,以順暢地群集 GPU。
主機規格
部分 | 數量 計數單位 |
規格 SKU 識別碼、效能單位等。 |
---|---|---|
處理器 | 96 個 vCPU | Intel Xeon (Sapphire Rapids) [x86-64] |
記憶體 | 1900 GiB | |
本機存放區 | 1 個磁碟 | 28000 GiB |
遠端儲存體 | 32 個磁碟 | |
網路 | 8 張NIC | |
加速器 | 8 GPUs | Nvidia H100 GPU (80GB) |
功能支援
進階儲存體:支援
進階儲存體快取:支援
即時移轉:不支援
記憶體保留更新:不支援
第 2 代 VM:支援
第 1 代 VM:不支援
加速網路:支援
暫時性 OS 磁碟:支援
巢狀虛擬化:不支援
Infiniband:支援
重要
若要開始使用 ND H100 v5 VM,請參閱 HPC 工作負載組態和最佳化,以取得包括驅動程式和網路組態的步驟。 由於 GPU 記憶體 I/O 使用量增加,ND H100 v5 需要使用第 2 代 VM 和市集映射。
Azure 支援 Ubuntu 20.04/22.04、RHEL 7.9/8.7/9.3、AlmaLinux 8.8/9.2 和 SLES 15 用於 ND H100 v5 VM。 目前支援Ubuntu-HPC 20.4/22.04和AlmaLinux-HPC 8.6/8.7 VM 映像。
針對已安裝各種 HPC 工具和連結庫的 HPC/AI 工作負載,提供優化和預先設定的 Linux VM 映像,因此強烈建議使用它們。
若要下載映像,請移至 Azure Marketplace。
系列中的大小
每個大小的 vCPU (數量) 和記憶體
大小名稱 | vCPU (數量) | 記憶體 (GB) |
---|---|---|
Standard_ND96isr_H100_v5 | 96 | 1900 |
VM 基本資源
其他大小資訊
所有可用大小清單:大小
定價計算機:定價計算機
磁碟類型的相關資訊:磁碟類型
下一步
深入了解 Azure 計算單位 (ACU) 如何協助您比較各個 Azure SKU 的計算效能。
請參閱 Azure 專用主機,讓實體伺服器能夠裝載指派給一個 Azure 訂用帳戶的一或多部虛擬機器。
了解如何監視 Azure 虛擬機器。