Serie de tamaños de máquina virtual acelerada por GPU "ND"

Artículo
10/15/2024

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles ✔️ Conjuntos de escalado uniformes

La familia "ND" de series de tamaño de máquinas virtuales es una de las instancias de máquinas virtuales aceleradas por GPU de Azure. Están diseñados para el aprendizaje profundo, la investigación de IA y las tareas de computación de alto rendimiento que se benefician de la potente aceleración de la GPU. Equipadas con GPU NVIDIA, las máquinas virtuales de la serie ND ofrecen capacidades especializadas para el entrenamiento y la inferencia de modelos complejos de aprendizaje automático, lo que facilita la realización de cálculos más rápidos y el manejo eficiente de grandes conjuntos de datos. Esto las hace especialmente adecuadas para aplicaciones académicas y comerciales de desarrollo y simulación de IA, donde la tecnología de GPU de última generación es crucial para obtener resultados rápidos y precisos en el procesamiento de redes neuronales y otras tareas de alta carga computacional.

Cargas de trabajo y casos de uso

IA y aprendizaje profundo: las máquinas virtuales de la familia ND son ideales para entrenar e implementar modelos complejos de aprendizaje profundo. Equipadas con potentes GPU NVIDIA, proporcionan la capacidad de cálculo necesaria para manejar el entrenamiento de redes neuronales extensas con grandes conjuntos de datos, lo que reduce significativamente los tiempos de entrenamiento.

Computación de alto rendimiento (HPC): las máquinas virtuales de la familia ND son adecuadas para aplicaciones HPC que requieren aceleración por GPU. Campos como la investigación científica, las simulaciones de ingeniería (por ejemplo, la dinámica de fluidos computacional) y el procesamiento genomics pueden beneficiarse de las capacidades informáticas de alto rendimiento de las máquinas virtuales de la serie ND.

Series en familia

Serie V1

Las máquinas virtuales de serie ND son una novedad incorporada a la familia GPU diseñada para cargas de trabajo inteligencia artificial y aprendizaje profundo. Ofrecen un rendimiento excelente para el aprendizaje y la inferencia. Las instancias de ND funcionan con GPU NVIDIA Tesla P40 y CPU Intel Xeon E5-2690 v4 (Broadwell). Estas instancias brindan un rendimiento excelente para operaciones de punto flotante de precisión única, para cargas de trabajo de inteligencia artificial que usan Microsoft Cognitive Toolkit, TensorFlow, Caffe y otros marcos. La serie ND también ofrece una memoria de la GPU de un tamaño muy superior (24 GB), lo que permite adaptarse a modelos de redes neurales mucho más grandes. Al igual que la serie NC, la serie ND presenta una configuración con una baja latencia secundaria, una red de alta productividad mediante RDMA y conectividad InfiniBand para que pueda ejecutar trabajos de aprendizaje a gran escala que abarquen muchas GPU.

Ver la página completa de la serie ND.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	6 - 24 CPU virtuales	Intel Xeon E5-2690 v4 (Broadwell) [x86-64]
Memoria	112 - 448 GiB
Almacenamiento local	1 disco	736 - 2948 GiB
Almacenamiento remoto	12 - 32 discos	20 000 - 80 000 IOPS 200 - 800 MBps
Red	4 - 8 NIC
Aceleradores	1 - 4 GPU	GPU Nvidia Tesla P40 (24 GB)

Serie NDv2

La máquina virtual de la serie NDv2 es una nueva incorporación a la familia de GPU diseñada para las necesidades de las cargas de trabajo más exigentes de informática de alto rendimiento, inteligencia artificial aprendizaje automático y simulación de aceleración por GPU.

NDv2 cuenta con 8 GPU NVIDIA Tesla V100 conectadas mediante NVLINK, cada una con 32 GB de memoria de GPU. Cada máquina virtual NDv2 también tiene 40 núcleos Intel Xeon Platinum 8168 (Skylake) sin hyperthreading y 672 GiB de memoria del sistema.

Las instancias de NDv2 proporcionan un rendimiento excelente para las cargas de trabajo de IA y HPC mediante kernels de cálculo optimizados para GPU de CUDA y las numerosas herramientas de inteligencia artificial, Machine Learning y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas.

Fundamentalmente, NDv2 se ha creado para cargas de trabajo de escalado vertical (con 8 GPU por máquina virtual) y escalado horizontal (con varias máquinas virtuales que funcionan de forma conjunta) que usan muchos cálculos. La serie NDv2 ahora admite redes de back-end InfiniBand EDR de 100 Gigabits, similares a las que están disponibles en la serie HB de máquinas virtuales HPC, para permitir la agrupación en clústeres de alto rendimiento en escenarios paralelos, incluido el entrenamiento distribuido para IA y ML. Esta red de back-end es compatible con todos los protocolos de InfiniBand principales, incluidos los empleados por las bibliotecas NCCL2 de NVIDIA, lo que permite la agrupación en clústeres de las GPU sin problemas.

Ver la página completa de la NDv2-series.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	40 CPU virtuales	Intel Xeon Platinum 8168 (Skylake) [x86-64]
Memoria	672 GiB
Almacenamiento local	1 disco	2948 GiB
Almacenamiento remoto	32 discos	80 000 IOPS 800 MBps
Red	8 NICs	24 000 Mbps
Aceleradores	8

ND_A100_v4-series

La máquina virtual (VM) de la serie ND A100 v4 es un nuevo buque insignia de la familia de GPU de Azure. Estos tamaños están diseñados para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC de escalabilidad horizontal y vertical estrechamente acopladas.

La serie ND A100 v4 comienza con una sola máquina virtual y ocho GPU NVIDIA Ampere A100 Tensor Core de 40 GB. Las implementaciones basadas en ND A100 v4 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 1,6 TB/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Mellanox HDR de 200 GB/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales de Azure y admiten RDMA de GPU Direct.

Cada GPU cuenta con conectividad NVLINK 3.0 para la comunicación dentro de la máquina virtual (VM), respaldada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Rome) de 2ª generación.

Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL2 de NVIDIA para una agrupación en clústeres de GPU sin problemas.

Ver la página ND_A100_v4-series completa.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	96 CPU virtuales	AMD EPYC 7V12 (Rome) [x86-64]
Memoria	900 GiB
Almacenamiento local	1 disco	6000 GiB
Almacenamiento remoto	32 discos	80 000 IOPS 800 MBps
Red	8 NICs	24 000 Mbps
Aceleradores	8 GPU	Nvidia A100 GPU (40GB)

NDm_A100_v4-series

La máquina virtual (VM) de la serie NDm A100 v4 es un nuevo buque insignia de la familia de GPU de Azure. Estos tamaños están diseñados para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC de escalabilidad horizontal y vertical estrechamente acopladas.

La serie NDm A100 v4 comienza con una sola máquina virtual y ocho GPU NVIDIA Ampere A100 Tensor Core de 80 GB. Las implementaciones basadas en NDm A100 v4 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 1,6 Tb/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Mellanox HDR de 200 GB/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales de Azure y admiten RDMA de GPU Direct.

Cada GPU cuenta con conectividad NVLINK 3.0 para la comunicación dentro de la máquina virtual (VM), respaldada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Rome) de 2ª generación.

Ver la página completa de NDm_A100_v4-series.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	96 CPU virtuales	AMD EPYC 7V12 (Rome) [x86-64]
Memoria	1900 GiB
Almacenamiento local	1 disco	6400 GiB
Almacenamiento remoto	32 discos	80 000 IOPS 800 MBps
Red	8 NICs	24 000 Mbps
Aceleradores	8 GPU	Nvidia A100 GPU (80GB)

ND_H100_v5-series

La máquina virtual (VM) de la serie ND H100 v5 es una nueva adición estrella de la familia de GPU de Azure. Esta serie se ha diseñado para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC y de IA generativa de escalabilidad horizontal y vertical estrechamente acopladas.

La serie ND H100 v5 comienza con una sola máquina virtual y ocho GPU NVIDIA H100 Tensor Core. Las implementaciones basadas en ND H100 v5 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 3,2 Tbps por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Quantum-2 CX7 de 400 Gb/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales y admiten RDMA de GPU Direct.

Cada GPU incluye conectividad NVLINK 4.0 para la comunicación dentro de la máquina virtual, y la instancia tiene 96 núcleos físicos de procesador escalables Intel Xeon de cuarta generación.

Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL de NVIDIA para una agrupación en clústeres de GPU sin problemas.

Ver la página completa de la serie ND_H100_v5.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	96 CPU virtuales	Intel Xeon (Sapphire Rapids) [x86-64]
Memoria	1900 GiB
Almacenamiento local	1 disco	28000 GiB
Almacenamiento remoto	32Discos
Red	8 NICs
Aceleradores	8 GPU	Nvidia H100 GPU (80GB)

ND_MI300X_v5-series

La máquina virtual (VM) de la serie ND MI300X v5 es una nueva adición estrella de la familia de GPU de Azure. Ha sido diseñada para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC y de IA generativa de escalabilidad horizontal y vertical estrechamente acopladas.

La máquina virtual de la serie ND MI300X v5 comienza con ocho GPU AMD Instinct MI300 y dos procesadores escalables Intel Xeon de cuarta generación para un total de 96 núcleos físicos. Cada GPU dentro de la máquina virtual se conecta con el resto a través de los vínculos AMD Infinity Fabric de 4.ª generación con ancho de banda de 128 GB/s por GPU y ancho de banda agregado de 896 GB/s.

Las implementaciones basadas en ND MI300X v5 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 3,2 Tb/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Quantum-2 CX7 de 400 Gb/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales y admiten RDMA de GPUDirect.

Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en ROCm Communication Collectives Library (RCCL) de AMD para una agrupación en clústeres de GPU sin problemas.

Vea la página completa de la serie ND_MI300X_v5.

Parte	Cantidad ^{Unidades de recuento}	Especificaciones ^{Id. de SKU, unidades de rendimiento, etc.}
Procesador	96 CPU virtuales	Intel Xeon (Sapphire Rapids) [x86-64]
Memoria	1850 GiB
Almacenamiento local	1 disco temporal 8 discos NVMe	Disco temporal de 1000 GiB Discos NVMe de 28000 GiB
Almacenamiento remoto	32 discos	80 000 IOPS 1200 MBps
Red	8 NICs
Aceleradores	8 GPU	GPU AMD Instinct MI300X (192GB)

Serie de familia ND de generación anterior

Para conocer los tamaños más antiguos, consulte tamaños de generación anteriores.

Otra información de tamaño

Lista de todos los tamaños disponibles: Tamaños

Calculadora de precios: Calculadora de precios

Información sobre los tipos de disco: Tipos de disco

Pasos siguientes

Aproveche el rendimiento y las características más recientes disponibles para las cargas de trabajo al cambiar el tamaño de una máquina virtual.

Use los procesadores ARM diseñados internamente por Microsoft con Máquinas virtuales de Azure Cobalt.

Aprenda a Supervisión de máquinas virtuales de Azure.

Compartir a través de