GPU-beschleunigte VM-Größenreihe der „ND“-Unterfamilie

Artikel
02/04/2025

Gilt für: ✔️ Linux-VMs ✔️ Windows-VMs ✔️ Flexible Skalierungsgruppen ✔️ Einheitliche Skalierungsgruppen

Die „ND“-Familie der VM-Größenreihe ist eine der GPU-beschleunigten VM-Instanzen von Azure. Sie sind für Deep Learning, KI-Forschung und High Performance Computing-Aufgaben konzipiert, die von einer leistungsstarken GPU-Beschleunigung profitieren. Ausgestattet mit NVIDIA-GPUs bieten die VMs der ND-Reihe spezielle Funktionen für das Training und die Inferenz komplexer Machine Learning-Modelle, die schnellere Berechnungen und den effizienten Umgang mit großen Datensätzen ermöglichen. Dadurch eignen sie sich besonders gut für akademische und kommerzielle Anwendungen in der KI-Entwicklung und Simulation, wo modernste GPU-Technologie entscheidend ist, um schnelle und genaue Ergebnisse bei der Verarbeitung neuronaler Netzwerke und anderen rechenintensiven Aufgaben zu erzielen.

Workloads und Anwendungsfälle

KI und Deep Learning: VMs der ND-Familie sind ideal für das Training und den Einsatz komplexer Deep Learning-Modelle. Ausgestattet mit leistungsstarken NVIDIA-GPUs bieten sie die nötige Rechenleistung für das Training umfangreicher neuronaler Netze mit großen Datensätzen und verkürzen die Trainingszeiten erheblich.

High Performance Computing (HPC): VMs der ND-Familie eignen sich für HPC-Anwendungen, die GPU-Beschleunigung erfordern. Bereiche wie wissenschaftliche Forschung, technische Simulationen (z. B. Computational Fluid Dynamics) und genomische Verarbeitung können von den Hochdurchsatz-Rechenkapazitäten der VMs der ND-Reihe profitieren.

Reihe in Familie

ND-Reihe V1

Die virtuellen Computer der ND-Serie sind eine neue Ergänzung der GPU-Familie und für Workloads in den Bereichen KI und Deep Learning konzipiert. Sie bieten eine ausgezeichnete Leistung für Training und Rückschluss. ND-Instanzen werden mit NVIDIA Tesla P40-GPUs und Intel Xeon E5-2690 v4 (Broadwell)-CPUs betrieben. Diese Instanzen bieten eine ausgezeichnete Leistung für Gleitkommavorgänge mit einfacher Genauigkeit, für KI-Workloads mit Microsoft Cognitive Toolkit sowie für TensorFlow, Caffe und andere Frameworks. Die ND-Serie bietet auch einen wesentlich größeren GPU-Arbeitsspeicher (24 GB) und eignet sich somit für deutlich umfangreichere neurale Netzmodelle. Genau wie die NC-Serie bietet auch die ND-Serie eine Konfiguration mit einem sekundären, RDMA-basierten Netzwerk mit geringer Wartezeit und hohem Durchsatz sowie InfiniBand-Konnektivität, sodass Sie umfangreiche Trainingsaufträge über mehrere GPUs hinweg ausführen können.

Die vollständige ND-Reihe Seite anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	6–24 vCPUs	Intel Xeon E5-2690 v4 (Broadwell) [x86-64]
Arbeitsspeicher	112–448 GiB
Lokaler Speicher	1 Datenträger	736–2948 GiB
Remotespeicher	12–32 Datenträger	20.000–80.000 IOPS 200–800 MBit/s
Network	4–8 NICs
Schnellinfos	1–4 GPUs	Nvidia Tesla P40 GPU (24GB)

NDv2-Serie

Die VMs der NDv2-Serie sind ein neues Mitglied der GPU-Familie und darauf ausgelegt, die Anforderungen von besonders ressourcenintensiven Workloads zu erfüllen – beispielsweise KI-Workloads mit GPU-Beschleunigung, Machine Learning-, Simulations- und HPC-Workloads.

Die VMs der NDv2-Serie sind mit 8 NVIDIA Tesla V100-GPUs mit NVLINK-Bus ausgestattet und umfassen jeweils 32 GB an GPU-Arbeitsspeicher. Jede NDv2-VM verfügt außerdem über 40 Intel Xeon Platinum 8168-Kerne (Skylake) ohne Hyperthreading und 672 GiB an Systemarbeitsspeicher.

NDv2-Instanzen bieten dank CUDA GPU-optimierter Computekernel hervorragende Leistung für HPC- und KI-Workloads sowie für zahlreiche KI-, ML- und Analysetools mit integrierter Unterstützung der GPU-Beschleunigung. Dazu zählen beispielsweise TensorFlow, Pytorch, Caffe, RAPIDS und andere Frameworks.

Entscheidend ist, dass die NDv2-Serie sowohl auf rechenintensive Workloads zum zentralen Hochskalieren (mit 8 GPUs pro VM) als auch auf horizontale Skalierung (mit mehreren kombinierten VMs) ausgelegt ist. Die NDv2-Serie unterstützt ab sofort Back-End-Netzwerke mit InfiniBand EDR (100 Gigabit), ähnlich der Datenrate auf HPC-VMs der HB-Serie, und ermöglicht somit Hochleistungsclustering für parallele Szenarien, z. B. für ein verteiltes Training für KI und ML. Dieses Back-End-Netzwerk unterstützt alle wichtigen InfiniBand-Protokolle – einschließlich derer, die in den NCCL2-Bibliotheken von NDVIA verwendet werden. Dadurch ist ein nahtloses Clustering von GPUs möglich.

Die vollständige Seite der NDv2-Reihe anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	40 vCPUs	Intel Xeon Platinum 8168 (Skylake) [x86-64]
Arbeitsspeicher	672 GiB
Lokaler Speicher	1 Datenträger	2.948 GiB
Remotespeicher	32 Datenträger	80.000 IOPS 800 MBit/s
Network	8 NICs	24.000 MBit/s
Accelerators	8

ND_A100_v4-Reihe

Der virtuelle Computer der Serie ND A100 v4 ist eine neues Flaggschiff der Azure-GPU-Familie. Diese Größen sind für High-End-Deep-Learning-Training und eng gekoppelte vertikal und horizontal skalierbare HPC-Workloads konzipiert.

Die kleinste Bereitstellung der Serie ND A100 v4 besteht aus einer einzelnen VM und acht NVIDIA Ampere A100 Tensor Core-GPUs mit 40 GB. ND A100 v4-basierte Bereitstellungen können vertikal auf Tausende von GPUs mit einer Verbindungsbandbreite von 1,6 TB/s pro VM hochskaliert werden. Jede GPU in der VM verfügt über eine eigene dedizierte, topologieunabhängige NVIDIA Mellanox HDR InfiniBand-Verbindung mit 200 GB/s Bandbreite. Diese Verbindungen werden automatisch zwischen VMs in derselben Azure VM-Skalierungsgruppe konfiguriert und unterstützen GPU Direct-RDMA.

Jede GPU verfügt über NVLINK 3.0-Konnektivität für die Kommunikation innerhalb der VM, unterstützt durch 96 physische AMD Epyc™ 7V12 (Rome) CPU-Kerne der 2. Generation.

Diese Instanzen bieten hervorragende Leistung für zahlreiche KI-, ML- und Analysetools mit integrierter Unterstützung für GPU-Beschleunigung. Dazu zählen beispielsweise TensorFlow, Pytorch, Caffe, RAPIDS und andere Frameworks. Darüber hinaus unterstützt die horizontal skalierbare InfiniBand-Verbindung viele vorhandene KI- und HPC-Tools, die auf den NCCL2-Kommunikationsbibliotheken von NVIDIA für das nahtlose GPU-Clustering aufbauen.

Die vollständige ND_A100_v4-Reihe-Seite anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	96 vCPUs	AMD EPYC 7V12 (Rome) [x86-64]
Arbeitsspeicher	900 GiB
Lokaler Speicher	1 Datenträger	6.000 GiB
Remotespeicher	32 Datenträger	80.000 IOPS 800 MBit/s
Network	8 NICs	24.000 MBit/s
Schnellinfos	8 GPUs	Nvidia A100 GPU (40 GB)

NDm_A100_v4-Serie

Der virtuelle Computer (VM) der NDm A100 v4-Serie ist eine neues Flaggschiff der Azure-GPU-Familie. Diese Größen sind für High-End-Deep-Learning-Training und eng gekoppelte vertikal und horizontal skalierbare HPC-Workloads konzipiert.

Die NDm A100 v4-Serie beginnt mit einer einzelnen VM und acht NVIDIA Ampere A100 Tensor Core-GPUs mit 80 GB. NDm A100 v4-basierte Bereitstellungen können auf Tausende von GPUs mit einer Verbindungsbandbreite von 1,6 TB/s pro VM hochskaliert werden. Jede GPU innerhalb der VM kommt mit einer eigenen dedizierten, topologieunabhängigen NVIDIA Mellanox HDR InfiniBand-Verbindung, die 200 GB/s Bandbreite bietet. Diese Verbindungen werden automatisch zwischen VMs in derselben Azure VM-Skalierungsgruppe konfiguriert und unterstützen GPU Direct-RDMA.

Jede GPU verfügt über NVLINK 3.0-Konnektivität für die Kommunikation innerhalb der VM, unterstützt durch 96 physische AMD Epyc™ 7V12 (Rome) CPU-Kerne der 2. Generation.

Die vollständige NDm_A100_v4-Reihe-Seite anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	96 vCPUs	AMD EPYC 7V12 (Rome) [x86-64]
Arbeitsspeicher	1.900 GiB
Lokaler Speicher	1 Datenträger	6.400 GiB
Remotespeicher	32 Datenträger	80.000 IOPS 800 MBit/s
Network	8 NICs	24.000 MBit/s
Schnellinfos	8 GPUs	Nvidia A100 GPU (80 GB)

ND_H100_v5-Reihe

Der virtuelle Computer der Serie ND H100 v5 ist eine neues Flaggschiff der Azure-GPU-Familie. Diese Serie ist für High-End-Deep-Learning-Training und eng gekoppelte vertikal und horizontal skalierbare generative KI- und HPC-Workloads konzipiert.

Die kleinste Bereitstellung der Serie ND H100 v5 besteht aus einer einzelnen VM und acht NVIDIA H100 Tensor Core-GPUs. ND H100 v5-basierte Bereitstellungen können auf Tausende von GPUs mit einer Verbindungsbandbreite von 3,2 Tbit/s pro VM hochskaliert werden. Jede GPU innerhalb der VM kommt mit einer eigenen dedizierten, topologieunabhängigen NVIDIA Quantum-2 CX7 InfiniBand-Verbindung, die 400 Gbit/s Bandbreite bietet. Diese Verbindungen werden automatisch zwischen VMs in derselben VM-Skalierungsgruppe konfiguriert und unterstützen GPU Direct-RDMA.

Jede GPU verfügt über NVLINK 4.0-Konnektivität für die Kommunikation innerhalb der VM, und die Instanz hat 96 physische skalierbare Intel Xeon-Prozessorkerne der vierten Generation.

Diese Instanzen bieten hervorragende Leistung für zahlreiche KI-, ML- und Analysetools mit integrierter Unterstützung für GPU-Beschleunigung. Dazu zählen beispielsweise TensorFlow, Pytorch, Caffe, RAPIDS und andere Frameworks. Darüber hinaus unterstützt die horizontal skalierbare InfiniBand-Verbindung viele vorhandene KI- und HPC-Tools, die auf den NCCL-Kommunikationsbibliotheken von NVIDIA für das nahtlose GPU-Clustering aufbauen.

Die vollständige ND_H100_v5-Reihe Seite anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	96 vCPUs	Intel Xeon (Sapphire Rapids) [x86-64]
Arbeitsspeicher	1.900 GiB
Lokaler Speicher	1 Datenträger	28.000 GiB
Remotespeicher	32Datenträger
Network	8 NICs
Schnellinfos	8 GPUs	Nvidia H100-GPU (80 GB)

ND_MI300X_v5-series

Die VM der Serie ND MI300X v5 ist ein neues Flaggschiff der Azure-GPU-Familie. Sie ist für High-End-Deep Learning-Training und eng gekoppelte vertikal und horizontal skalierbare generative KI und HPC-Workloads konzipiert.

Die VM der Serie ND MI300X v5 beginnt bei acht AMD Instinct MI300 GPUs und zwei Intel Xeon Scalable Prozessoren der vierten Generation für insgesamt 96 physische Kerne. Jede GPU innerhalb der VM ist dann über AMD Infinity Fabric Links der 4. Generation mit einer Bandbreite von 128 GB/s pro GPU und einer Gesamtbandbreite von 896 GB/s miteinander verbunden.

ND MI300X v5-basierte Bereitstellungen können auf Tausende von GPUs mit einer Verbindungsbandbreite von 3,2 Tbit/s pro VM hochskaliert werden. Jede GPU innerhalb der VM kommt mit einer eigenen dedizierten, topologieunabhängigen NVIDIA Quantum-2 CX7 InfiniBand-Verbindung, die 400 Gbit/s Bandbreite bietet. Diese Verbindungen werden automatisch zwischen VMs in der gleichen VM-Skalierungsgruppe erstellt und unterstützen GPUDirect-RDMA.

Diese Instanzen bieten hervorragende Leistung für zahlreiche KI-, ML- und Analysetools mit integrierter Unterstützung für GPU-Beschleunigung. Dazu zählen beispielsweise TensorFlow, Pytorch und andere Frameworks. Darüber hinaus unterstützt die horizontal skalierbare InfiniBand-Verbindung viele vorhandene KI- und HPC-Tools, die für das nahtlose GPU-Clustering auf der ROCm Communication Collectives-Bibliothek (RCCL) von AMD aufbauen.

Die vollständige ND_MI300X_v5-series Seite anzeigen.

Teil	Menge ^{Anzahl Einheiten}	Spezifikationen ^{SKU-ID, Leistungseinheiten usw.}
Prozessor	96 vCPUs	Intel Xeon (Sapphire Rapids) [x86-64]
Arbeitsspeicher	1850 GiB
Lokaler Speicher	1 temporärer Datenträger 8 NVMe-Datenträger	Temporärer Datenträger mit 1000 GiB NVMe-Datenträger mit 28 000 GiB
Remotespeicher	32 Datenträger	80.000 IOPS 1.200 MBit/s
Network	8 NICs
Schnellinfos	8 GPUs	AMD Instinct MI300X GPU (192 GB)

Serien der ND-Familie der vorherigen Generation

Ältere Größen finden Sie unter Größen der vorherigen Generation.

Andere Größeninformationen

Liste aller verfügbaren Größen: Größen

Preisrechner: Preisrechner

Informationen zu Datenträgertypen: Datenträgertypen

Nächste Schritte

Nutzen Sie die neuesten für Ihre Workloads verfügbaren Leistung und Funktionen, indem Sie die Größe eines virtuellen Computers ändern.

Nutzen Sie die von Microsoft selbst entwickelten ARM-Prozessoren mit Azure Cobalt-VMs.

Weitere Informationen finden Sie unter Überwachen von Azure-VMs.

Freigeben über