Compartir vía


Recomendaciones de redes para cargas de trabajo de IA en la infraestructura Azure (IaaS)

Este artículo proporciona recomendaciones de redes para organizaciones que ejecutan cargas de trabajo de IA en la infraestructura Azure (IaaS). El diseño de una red bien optimizada puede mejorar la velocidad de procesamiento de datos, reducir la latencia y garantizar que la infraestructura de red se adapte a las crecientes demandas de IA.

Garantizar un ancho de banda suficiente

El ancho de banda suficiente se refiere a la capacidad de una red para manejar grandes volúmenes de datos sin retrasos ni interrupciones. Un ancho de banda elevado garantiza una transferencia de datos rápida e ininterrumpida entre los sistemas locales y Azure, lo que permite un rápido entrenamiento de los modelos de IA y reduce el tiempo de inactividad en la canalización. Para las organizaciones que transfieren grandes conjuntos de datos de los sistemas locales a la nube para el entrenamiento de modelos de IA, es esencial disponer de una conexión de gran ancho de banda. Utilice Azure ExpressRoute para establecer una conexión de alta velocidad dedicada, segura y fiable entre su red local y Azure.

Minimizar la latencia

Minimizar la latencia implica reducir los retrasos en la transferencia de datos entre los recursos en red. Una latencia más baja proporciona un procesamiento de datos más rápido, lo que permite obtener información en tiempo real y mejorar el rendimiento de las cargas de trabajo sensibles a la latencia.

  • Optimizar la ubicación de los recursos. Para minimizar la latencia de las cargas de trabajo de INTELIGENCIA ARTIFICIAL, como el preprocesamiento de datos, el entrenamiento del modelo y la inferencia, implemente máquinas virtuales (VM) en la misma región de Azure o en la misma zona de disponibilidad. La coubicación de recursos reduce la distancia física, mejorando así el rendimiento de la red.

  • Utilice grupos de colocación de proximidad (PPG). Para cargas de trabajo sensibles a la latencia que requieren procesamiento en tiempo real o comunicación rápida entre procesos, utilice los PPG para colocar físicamente los recursos dentro de un centro de datos Azure. Los PPG garantizan que los recursos informáticos, de almacenamiento y de red permanezcan juntos, minimizando la latencia para cargas de trabajo exigentes. Las soluciones de orquestación y InfiniBand controlan automáticamente la proximidad del nodo.

  • Utilice imágenes preconfiguradas del SO Linux. Simplifique la implantación de clústeres seleccionando imágenes del SO Linux de Azure Marketplace preempaquetadas con controladores InfiniBand, controladores NVIDIA, bibliotecas de comunicación y herramientas de supervisión. Estas imágenes están optimizadas para el rendimiento y se pueden implementar con Azure CycleCloud para crear clústeres de forma rápida y eficaz.

Implemente redes de alto rendimiento

Las redes de alto rendimiento utilizan funciones de red avanzadas para soportar cálculos de IA intensivos y a gran escala, especialmente para tareas aceleradas por GPU. Las redes de alto rendimiento garantizan intercambios de datos rápidos y eficientes entre las GPU, lo que optimiza la formación de modelos y acelera los ciclos de desarrollo de la IA.

  • Utilice InfiniBand para cargas de trabajo de GPU. Para las cargas de trabajo que dependen de la aceleración de la GPU y el entrenamiento distribuido en varias GPU, utilice la red InfiniBand de Azure. La capacidad de acceso remoto directo a memoria (RDMA) GPUDirect de InfiniBand admite la comunicación directa de GPU a GPU. Mejora la velocidad de transferencia de datos y la eficiencia del entrenamiento de modelos. Las soluciones de orquestación, como Azure CycleCloud y Azure Batch, controlan la configuración de red de InfiniBand cuando se usan las SKU de máquina virtual adecuadas.

  • Elija las VM optimizadas para GPU de Azure. Seleccione máquinas virtuales que utilicen InfiniBand, como las máquinas virtuales de la serie ND, diseñadas para comunicaciones entre GPU de gran ancho de banda y baja latencia. Esta configuración es esencial para el entrenamiento y la inferencia distribuidos y escalables, ya que permite un intercambio de datos más rápido entre las GPU.

Optimización para el procesamiento de datos a gran escala

La optimización para el procesamiento de datos a gran escala implica estrategias para administrar grandes transferencias de datos y elevadas cargas de procesos. Al utilizar el paralelismo de datos y modelos, puede escalar sus cargas de trabajo de IA y mejorar la velocidad de procesamiento. Utilice las máquinas virtuales optimizadas para GPU de Azure para administrar cargas de trabajo de IA complejas y con un uso intensivo de datos.

  • Aplique técnicas de paralelismo de datos o modelos. Para administrar grandes transferencias de datos a través de varias GPU, implemente el paralelismo de datos o el paralelismo de modelos en función de las necesidades de su carga de trabajo de IA. Garantice el uso de la memoria de alto ancho de banda (HBM), que es ideal para cargas de trabajo de alto rendimiento debido a su gran ancho de banda, bajo consumo de energía y diseño compacto. La HBM admite el procesamiento rápido de datos, esencial para las cargas de trabajo de IA que requieren procesar grandes conjuntos de datos.

  • Utilice las funciones avanzadas de red de la GPU. Para escenarios de IA exigentes, elija máquinas virtuales Azure como NDH100v5 y NDMI300Xv5. Azure configura estas VM con conexiones InfiniBand dedicadas de 400 Gb/s NVIDIA Quantum-2 CX7 dentro de los conjuntos de escalado de las máquinas virtuales. Estas conexiones admiten GPU Direct RDMA, lo que permite transferencias de datos directas de GPU a GPU que reducen la latencia y mejoran el rendimiento general del sistema.

Paso siguiente