Serie de tamaños de máquina virtual acelerada por GPU "ND"
Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles ✔️ Conjuntos de escalado uniformes
La familia "ND" de series de tamaño de máquinas virtuales es una de las instancias de máquinas virtuales aceleradas por GPU de Azure. Están diseñados para el aprendizaje profundo, la investigación de IA y las tareas de computación de alto rendimiento que se benefician de la potente aceleración de la GPU. Equipadas con GPU NVIDIA, las máquinas virtuales de la serie ND ofrecen capacidades especializadas para el entrenamiento y la inferencia de modelos complejos de aprendizaje automático, lo que facilita la realización de cálculos más rápidos y el manejo eficiente de grandes conjuntos de datos. Esto las hace especialmente adecuadas para aplicaciones académicas y comerciales de desarrollo y simulación de IA, donde la tecnología de GPU de última generación es crucial para obtener resultados rápidos y precisos en el procesamiento de redes neuronales y otras tareas de alta carga computacional.
Cargas de trabajo y casos de uso
IA y aprendizaje profundo: las máquinas virtuales de la familia ND son ideales para entrenar e implementar modelos complejos de aprendizaje profundo. Equipadas con potentes GPU NVIDIA, proporcionan la capacidad de cálculo necesaria para manejar el entrenamiento de redes neuronales extensas con grandes conjuntos de datos, lo que reduce significativamente los tiempos de entrenamiento.
Computación de alto rendimiento (HPC): las máquinas virtuales de la familia ND son adecuadas para aplicaciones HPC que requieren aceleración por GPU. Campos como la investigación científica, las simulaciones de ingeniería (por ejemplo, la dinámica de fluidos computacional) y el procesamiento genomics pueden beneficiarse de las capacidades informáticas de alto rendimiento de las máquinas virtuales de la serie ND.
Series en familia
Serie V1
Las máquinas virtuales de serie ND son una novedad incorporada a la familia GPU diseñada para cargas de trabajo inteligencia artificial y aprendizaje profundo. Ofrecen un rendimiento excelente para el aprendizaje y la inferencia. Las instancias de ND funcionan con GPU NVIDIA Tesla P40 y CPU Intel Xeon E5-2690 v4 (Broadwell). Estas instancias brindan un rendimiento excelente para operaciones de punto flotante de precisión única, para cargas de trabajo de inteligencia artificial que usan Microsoft Cognitive Toolkit, TensorFlow, Caffe y otros marcos. La serie ND también ofrece una memoria de la GPU de un tamaño muy superior (24 GB), lo que permite adaptarse a modelos de redes neurales mucho más grandes. Al igual que la serie NC, la serie ND presenta una configuración con una baja latencia secundaria, una red de alta productividad mediante RDMA y conectividad InfiniBand para que pueda ejecutar trabajos de aprendizaje a gran escala que abarquen muchas GPU.
Ver la página completa de la serie ND.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 6 - 24 CPU virtuales | Intel Xeon E5-2690 v4 (Broadwell) [x86-64] |
Memoria | 112 - 448 GiB | |
Almacenamiento local | 1 disco | 736 - 2948 GiB |
Almacenamiento remoto | 12 - 32 discos | 20 000 - 80 000 IOPS 200 - 800 MBps |
Red | 4 - 8 NIC | |
Aceleradores | 1 - 4 GPU | GPU Nvidia Tesla P40 (24 GB) |
Serie NDv2
La máquina virtual de la serie NDv2 es una nueva incorporación a la familia de GPU diseñada para las necesidades de las cargas de trabajo más exigentes de informática de alto rendimiento, inteligencia artificial aprendizaje automático y simulación de aceleración por GPU.
NDv2 cuenta con 8 GPU NVIDIA Tesla V100 conectadas mediante NVLINK, cada una con 32 GB de memoria de GPU. Cada máquina virtual NDv2 también tiene 40 núcleos Intel Xeon Platinum 8168 (Skylake) sin hyperthreading y 672 GiB de memoria del sistema.
Las instancias de NDv2 proporcionan un rendimiento excelente para las cargas de trabajo de IA y HPC mediante kernels de cálculo optimizados para GPU de CUDA y las numerosas herramientas de inteligencia artificial, Machine Learning y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas.
Fundamentalmente, NDv2 se ha creado para cargas de trabajo de escalado vertical (con 8 GPU por máquina virtual) y escalado horizontal (con varias máquinas virtuales que funcionan de forma conjunta) que usan muchos cálculos. La serie NDv2 ahora admite redes de back-end InfiniBand EDR de 100 Gigabits, similares a las que están disponibles en la serie HB de máquinas virtuales HPC, para permitir la agrupación en clústeres de alto rendimiento en escenarios paralelos, incluido el entrenamiento distribuido para IA y ML. Esta red de back-end es compatible con todos los protocolos de InfiniBand principales, incluidos los empleados por las bibliotecas NCCL2 de NVIDIA, lo que permite la agrupación en clústeres de las GPU sin problemas.
Ver la página completa de la NDv2-series.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 40 CPU virtuales | Intel Xeon Platinum 8168 (Skylake) [x86-64] |
Memoria | 672 GiB | |
Almacenamiento local | 1 disco | 2948 GiB |
Almacenamiento remoto | 32 discos | 80 000 IOPS 800 MBps |
Red | 8 NICs | 24 000 Mbps |
Aceleradores | None |
ND_A100_v4-series
La máquina virtual (VM) de la serie ND A100 v4 es un nuevo buque insignia de la familia de GPU de Azure. Estos tamaños están diseñados para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC de escalabilidad horizontal y vertical estrechamente acopladas.
La serie ND A100 v4 comienza con una sola máquina virtual y ocho GPU NVIDIA Ampere A100 Tensor Core de 40 GB. Las implementaciones basadas en ND A100 v4 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 1,6 TB/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Mellanox HDR de 200 GB/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales de Azure y admiten RDMA de GPU Direct.
Cada GPU cuenta con conectividad NVLINK 3.0 para la comunicación dentro de la máquina virtual (VM), respaldada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Rome) de 2ª generación.
Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL2 de NVIDIA para una agrupación en clústeres de GPU sin problemas.
Ver la página ND_A100_v4-series completa.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 96 CPU virtuales | AMD EPYC 7V12 (Rome) [x86-64] |
Memoria | 900 GiB | |
Almacenamiento local | 1 disco | 6000 GiB |
Almacenamiento remoto | 32 discos | 80 000 IOPS 800 MBps |
Red | 8 NICs | 24 000 Mbps |
Aceleradores | 8 GPU | Nvidia A100 GPU (40GB) |
NDm_A100_v4-series
La máquina virtual (VM) de la serie NDm A100 v4 es un nuevo buque insignia de la familia de GPU de Azure. Estos tamaños están diseñados para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC de escalabilidad horizontal y vertical estrechamente acopladas.
La serie NDm A100 v4 comienza con una sola máquina virtual y ocho GPU NVIDIA Ampere A100 Tensor Core de 80 GB. Las implementaciones basadas en NDm A100 v4 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 1,6 Tb/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Mellanox HDR de 200 GB/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales de Azure y admiten RDMA de GPU Direct.
Cada GPU cuenta con conectividad NVLINK 3.0 para la comunicación dentro de la máquina virtual (VM), respaldada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Rome) de 2ª generación.
Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL2 de NVIDIA para una agrupación en clústeres de GPU sin problemas.
Ver la página completa de NDm_A100_v4-series.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 96 CPU virtuales | AMD EPYC 7V12 (Rome) [x86-64] |
Memoria | 1900 GiB | |
Almacenamiento local | 1 disco | 6400 GiB |
Almacenamiento remoto | 32 discos | 80 000 IOPS 800 MBps |
Red | 8 NICs | 24 000 Mbps |
Aceleradores | 8 GPU | Nvidia A100 GPU (80GB) |
ND_H100_v5-series
La máquina virtual (VM) de la serie ND H100 v5 es una nueva adición estrella de la familia de GPU de Azure. Esta serie se ha diseñado para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC y de IA generativa de escalabilidad horizontal y vertical estrechamente acopladas.
La serie ND H100 v5 comienza con una sola máquina virtual y ocho GPU NVIDIA H100 Tensor Core. Las implementaciones basadas en ND H100 v5 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 3,2 Tbps por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Quantum-2 CX7 de 400 Gb/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales y admiten RDMA de GPU Direct.
Cada GPU incluye conectividad NVLINK 4.0 para la comunicación dentro de la máquina virtual, y la instancia tiene 96 núcleos físicos de procesador escalables Intel Xeon de cuarta generación.
Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL de NVIDIA para una agrupación en clústeres de GPU sin problemas.
Ver la página completa de la serie ND_H100_v5.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 96 CPU virtuales | Intel Xeon (Sapphire Rapids) [x86-64] |
Memoria | 1900 GiB | |
Almacenamiento local | 1 disco | 28000 GiB |
Almacenamiento remoto | 32Discos | |
Red | 8 NICs | |
Aceleradores | 8 GPU | Nvidia H100 GPU (80GB) |
ND_MI300X_v5-series
La máquina virtual (VM) de la serie ND MI300X v5 es una nueva adición estrella de la familia de GPU de Azure. Ha sido diseñada para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC y de IA generativa de escalabilidad horizontal y vertical estrechamente acopladas.
La máquina virtual de la serie ND MI300X v5 comienza con ocho GPU AMD Instinct MI300 y dos procesadores escalables Intel Xeon de cuarta generación para un total de 96 núcleos físicos. Cada GPU dentro de la máquina virtual se conecta con el resto a través de los vínculos AMD Infinity Fabric de 4.ª generación con ancho de banda de 128 GB/s por GPU y ancho de banda agregado de 896 GB/s.
Las implementaciones basadas en ND MI300X v5 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 3,2 Tb/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Quantum-2 CX7 de 400 Gb/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales y admiten RDMA de GPUDirect.
Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en ROCm Communication Collectives Library (RCCL) de AMD para una agrupación en clústeres de GPU sin problemas.
Vea la página completa de la serie ND_MI300X_v5.
Parte | Cantidad Unidades de recuento |
Especificaciones Id. de SKU, unidades de rendimiento, etc. |
---|---|---|
Procesador | 96 CPU virtuales | Intel Xeon (Sapphire Rapids) [x86-64] |
Memoria | 1850 GiB | |
Almacenamiento local | 1 disco temporal 8 discos NVMe |
Disco temporal de 1000 GiB Discos NVMe de 28000 GiB |
Almacenamiento remoto | 32 discos | 80 000 IOPS 1200 MBps |
Red | 8 NICs | |
Aceleradores | 8 GPU | GPU AMD Instinct MI300X (192GB) |
Serie de familia ND de generación anterior
Para conocer los tamaños más antiguos, consulte tamaños de generación anteriores.
Otra información de tamaño
Lista de todos los tamaños disponibles: Tamaños
Calculadora de precios: Calculadora de precios
Información sobre los tipos de disco: Tipos de disco
Pasos siguientes
Obtenga más información sobre cómo las unidades de proceso de Azure (ACU) pueden ayudarlo a comparar el rendimiento en los distintos SKU de Azure.
Vea Hosts dedicados de Azure para servidores físicos que puedan hospedar una o varias máquinas virtuales asignadas a una suscripción de Azure.
Aprenda a Supervisión de máquinas virtuales de Azure.