Configuración de InfiniBand
En este artículo se hace referencia a CentOS, una distribución de Linux que está cerca de su estado Final de ciclo vida (EOL). Tenga en cuenta su uso y planifique en consecuencia. Para más información, consulte la Guía de fin de ciclo de vida de CentOS.
Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles ✔️ Conjuntos de escalado uniformes
Sugerencia
Pruebe la herramienta Selector de máquinas virtuales para buscar otros tamaños que se adapten mejor a la carga de trabajo.
En este artículo, se comparte información sobre las instancias compatibles con RDMA que se usarán a través de una red InfiniBand (IB). La arquitectura de red InfiniBand cuenta con un diseño completo fat-tree (que es una topología de red que proporciona alto ancho de banda y baja latencia), lo que garantiza simetría biseccional sin bloqueo. Esta configuración proporciona el mismo ancho de banda entre dos máquinas virtuales (VM) dentro del mismo conjunto de escalado de máquinas virtuales (VMSS).
Instancias compatibles con RDMA
La mayoría de los tamaños de VM para HPC incluye una interfaz de red para la conectividad de acceso directo a memoria remota (RDMA). Los tamaños seleccionados de la serie N designados con "r" también son compatibles con RDMA. Esta interfaz se agrega a la interfaz de red estándar de Azure Ethernet disponible en los otros tamaños de máquina virtual.
Esta interfaz secundaria permite que las instancias compatibles con RDMA se comuniquen través de una red InfiniBand (IB), que funciona a velocidades HDR en la serie HBv4, HBv3, HBv2; EDR en las series HB, HC, HX, NDv2; FDR en las series H16r, H16mr y en otras máquinas virtuales de la serie N compatibles con RDMA. Estas funcionalidades RDMA pueden mejorar la escalabilidad y el rendimiento basado en las aplicaciones de la Interfaz de paso de mensajes (MPI).
Nota
Compatibilidad con SR-IOV: En Azure HPC, hay dos clases de máquinas virtuales en función de si están habilitadas para SR-IOV de InfiniBand. Actualmente, casi todas las máquinas virtuales de la generación más reciente, compatibles con RDMA o InfiniBand en Azure, están habilitadas para SR-IOV, excepto H16r, H16mr y NC24r. RDMA solo se habilita a través de la red InfiniBand (IB) y es compatible con todas las máquinas virtuales que admiten RDMA. Solo se admite IP sobre IB en máquinas virtuales habilitadas para SR-IOV. RDMA no se habilita a través de la red Ethernet.
Sistema operativo: habitualmente se usan distribuciones de Linux como CentOS, RHEL, AlmaLinux, Ubuntu y SUSE. En todas las máquinas virtuales de la serie HPC se admite Windows Server 2016 y versiones más recientes. Tenga en cuenta que Windows Server 2012 R2 no se admite en HBv2 en adelante como máquinas virtuales con más de 64 núcleos (virtuales o físicos). Consulte Imágenes de máquina virtual para obtener una lista de imágenes de máquina virtual de Linux compatibles en Azure Marketplace y cómo se pueden configurar de forma adecuada. En las páginas con tamaño de máquina virtual correspondientes también se muestra la compatibilidad con la pila de software.
InfiniBand y controladores: en las máquinas virtuales compatibles con InfiniBand, se necesitan los controladores adecuados para habilitar RDMA. Consulte la habilitación de InfiniBand para obtener información acerca de las extensiones de máquina virtual o la instalación manual de los controladores Infiniband.
MPI: los tamaños de máquina virtual habilitados para SR-IOV en Azure permiten que se use prácticamente cualquier tipo de MPI con Mellanox OFED. Consulte Configuración de MPI para HPC para obtener más información sobre cómo configurar MPI en máquinas virtuales de HPC en Azure.
Nota
Espacio de direcciones de la red RDMA: la red RDMA en Azure reserva el espacio de direcciones 172.16.0.0/16. Para ejecutar aplicaciones MPI en instancias implementadas en una red virtual Azure, asegúrese de que el espacio de direcciones de la red virtual no se superpone a la red RDMA.
Opciones de configuración del clúster
Azure ofrece varias opciones para crear clústeres de máquinas virtuales de HPC que se pueden comunicar con la red RDMA, incluidos:
Máquinas virtuales: implemente las máquinas virtuales de HPC compatibles con RDMA en el mismo conjunto de escalado o de disponibilidad (cuando use el modelo de implementación de Azure Resource Manager). Si usa el modelo de implementación clásica, implemente las máquinas virtuales en el mismo servicio en la nube.
Conjuntos de escalado de máquinas virtuales: en un conjunto de escalado de máquinas virtuales, asegúrese de limitar la implementación a un único grupo de selección de ubicación para la comunicación InfiniBand dentro del conjunto de escalado. Por ejemplo, en una plantilla de Resource Manager, establezca la propiedad
singlePlacementGroup
entrue
.
Tenga en cuenta que el tamaño de conjunto de escalado máximo que se puede usar con singlePlacementGroup=true
está limitado a 100 máquinas virtuales de manera predeterminada. Si los requisitos de escalado de su trabajo de HPC son superiores a 100 máquinas virtuales en un único inquilino, puede solicitar un aumento. Para ello, realice una solicitud de soporte técnico al cliente en línea sin cargo alguno. El número máximo de máquinas virtuales en un único conjunto de escalado se puede aumentar hasta 300. Tenga en cuenta que al implementar máquinas virtuales con conjuntos de disponibilidad, el límite máximo es de 200 máquinas virtuales por conjunto de disponibilidad.
Además, VMSS actúa como límite de aislamiento entre las cargas de trabajo dentro del mismo clúster, lo que garantiza que las instancias de diferentes VMSS permanezcan aisladas entre sí para garantizar la seguridad.
Nota:
MPI entre las máquinas virtuales: si se requiere RDMA (por ejemplo, para usar la comunicación de MPI) entre las máquinas virtuales, asegúrese de que estas estén en el mismo conjunto de escalado de máquinas virtuales o conjunto de disponibilidad.
Azure CycleCloud: cree un clúster de HPC en Azure CycleCloud para ejecutar trabajos MPI.
Azure Batch: cree un grupo de Azure Batch para ejecutar cargas de trabajo MPI. Para usar instancias de proceso intensivo para ejecutar aplicaciones MPI con Azure Batch, consulte Uso de tareas de instancias múltiples para ejecutar aplicaciones de la Interfaz de paso de mensajes (MPI) en Azure Batch.
Microsoft HPC Pack: HPC Pack incluye un entorno de tiempo de ejecución para MS-MPI que usa la red RDMA de Azure cuando se implementa en máquinas virtuales Linux compatibles con RDMA. Para obtener ejemplos de implementación, consulte Configuración de un clúster de RDMA de Linux con HPC Pack para ejecutar aplicaciones MPI.
Consideraciones de la implementación
Suscripción de Azure: para implementar más que algunas instancias de proceso intensivo, considere la posibilidad de usar una suscripción de pago por uso u otras opciones de compra. Si usa una cuenta gratuita de Azure, solo puede usar un número limitado de núcleos de proceso de Azure.
Precios y disponibilidad: compruebe la disponibilidad y los precios de las máquinas virtuales en las regiones de Azure.
Cuota de núcleos: quizás tenga que aumentar la cuota de núcleos de su suscripción de Azure partiendo del valor predeterminado. La suscripción también podría limitar el número de núcleos que se pueden implementar en ciertas familias de tamaño de máquina virtual, como la serie H. Para solicitar un aumento de cuota, abra una solicitud de soporte técnico al cliente en línea sin cargo alguno. (Los límites predeterminados pueden variar según la categoría de suscripción).
Nota
Si tiene necesidades de capacidad a gran escala, póngase en contacto con el soporte técnico de Azure. Las cuotas de Azure son límites de crédito, no garantías de capacidad. Independientemente de la cuota, solamente se le cobrarán los núcleos que use.
Red virtual : no se necesita una red virtual de Azure para usar instancias de proceso intensivo. Sin embargo, para muchas implementaciones necesita al menos una red virtual de Azure basada en la nube o una conexión de sitio a sitio si necesita acceder a recursos locales. Si es necesario, cree una red virtual para implementar las instancias. No se admite la adición de máquinas virtuales de proceso intensivo a las redes virtuales de grupos de afinidad.
Cambio de tamaño: debido a su hardware especializado, solo se puede cambiar el tamaño de las instancias de proceso intensivo dentro de la misma familia de tamaño (serie H o serie N). Por ejemplo, una máquina virtual de la serie H solo se puede cambiar de un tamaño de serie H a otro. Es posible que tenga que tener en cuenta las consideraciones adicionales sobre la compatibilidad del controlador de InfiniBand y los discos de NVMe para determinadas máquinas virtuales.
Pasos siguientes
- Obtenga más información sobre la configuración de VM, la habilitación de InfiniBand, la configuración de MPI y la optimización de las aplicaciones HPC para Azure en cargas de trabajo de HPC.
- Revise la información general de la serie HBv3 y la información general de la serie HC.
- En los blogs de Azure Compute Community Tech, encontrará los anuncios más recientes, ejemplos de la carga de trabajo HPC y resultados de HPC.
- Si desea una visión general de la arquitectura de la ejecución de cargas de trabajo de HPC, consulte Informática de alto rendimiento (HPC) en Azure.