¿Qué es el área de trabajo de Azure CycleCloud para Slurm?
Slurm es uno de los administradores de cargas de trabajo de código abierto más populares y ampliamente usados para IA/HPC y informática en la nube. Slurm permite a los usuarios ejecutar aplicaciones en paralelo y distribuidas a gran escala en un conjunto de nodos de proceso y proporciona características como la programación de trabajos, la administración de recursos, la tolerancia a errores y la administración de energía. Slurm es utilizado por muchos de los principales superequipos, institutos de investigación, universidades y empresas del mundo.
Sin embargo, la configuración y administración de clústeres de Slurm en la nube puede ser difícil y lenta, especialmente para los usuarios que no están familiarizados con el entorno de nube o la configuración de Slurm. Los usuarios deben tratar tareas como el aprovisionamiento y el escalado de nodos de proceso, la instalación y actualización de software Slurm, la configuración de la red y el almacenamiento, la supervisión del estado y el rendimiento del clúster y la solución de problemas. Estas tareas pueden distraer a los usuarios de sus principales objetivos empresariales o de investigación y reducir la productividad y la eficacia de sus cargas de trabajo de IA/HPC.
El área de trabajo de Azure CycleCloud para Slurm es una plantilla de solución de Azure Marketplace que permite a los usuarios crear, configurar e implementar fácilmente clústeres de Slurm predefinidos con CycleCloud en Azure, sin necesidad de ningún conocimiento previo de Azure o Slurm. Los clústeres de Slurm se configurarán previamente con PMix v4, Pyxis y enroot para admitir trabajos de Slurm de IA/HPC en contenedores. Los usuarios pueden acceder al nodo de inicio de sesión aprovisionado mediante SSH o Visual Studio Code para realizar tareas comunes, como enviar y administrar trabajos de Slurm.
Aunque Azure CycleCloud ya le permite realizar algunas de estas acciones, no implementa la infraestructura de IA/HPC automáticamente. Los usuarios deben tratar tareas como instalar y configurar CycleCloud, configurar la red y el almacenamiento, y crear y configurar el clúster de Slurm. El área de trabajo de Azure CycleCloud para Slurm ejecuta estas tareas en una plantilla de solución de Marketplace que se puede implementar directamente desde Azure Portal o a través de la CLI de Azure. Estará listo en minutos y no días o semanas.
¿Cuáles son las ventajas del área de trabajo de Azure CycleCloud para Slurm?
Azure CycleCloud es una excelente solución cuando desea crear un entorno de INTELIGENCIA artificial o HPC en Azure, ya sea para elevar y cambiar parte de la carga de trabajo de INTELIGENCIA artificial o HPC local o para crear uno nuevo. Sin embargo, la creación de un entorno completo de IA/HPC de un extremo a otro no es una tarea fácil y tendrá que decidir cómo tendría que diseñar la red, qué componente de almacenamiento usar como sistema de archivos compartido, qué tipo de máquina virtual para ejecutar la carga de trabajo y muchas cosas pequeñas que pueden hacer que el proyecto sea complejo de entregar.
El área de trabajo de Azure CycleCloud para Slurm ofrece varias ventajas para los usuarios que desean ejecutar cargas de trabajo de Slurm en Azure, como:
creación de clústeres fácil y rápida: los usuarios pueden crear clústeres de Slurm en Azure en cuestión de minutos, siguiendo unos sencillos pasos en la GUI. Esto se debe comparar con días o semanas de trabajo en el pasado sin el área de trabajo de Azure CycleCloud para Slurm. Los usuarios pueden elegir entre diversos tamaños y tipos de máquina virtual de Azure y personalizar la configuración del clúster, como el número de nodos, la configuración de red, las opciones de almacenamiento de Azure NetApp Files al sistema de archivos de Azure Managed Lustre y los parámetros Slurm.
administración de clústeres flexible y dinámica: Azure CycleCloud escalará o reducirá verticalmente los clústeres de Slurm. Los usuarios también pueden supervisar el estado, el rendimiento y el uso del clúster, así como ver los registros y métricas del clúster en la GUI. Los usuarios también pueden eliminar sus clústeres de Slurm cuando ya no son necesarios y solo pagar por los recursos que usan.
¿Cómo se crea un área de trabajo de Azure CycleCloud para Slurm?
El área de trabajo de Azure CycleCloud para Slurm se puede implementar desde Azure Marketplace o mediante la CLI de Azure. Para realizar la implementación desde Marketplace, primero busque Slurm y, a continuación, haga clic en el botón Crear. Para realizar la implementación mediante la CLI de Azure, primero tendrá que crear un archivo de parámetros de entrada y, a continuación, implementar mediante el comando az deployment sub create
. Puede encontrar instrucciones detalladas aquí Implementación de un entorno de área de trabajo de CycleCloud Slurm mediante la CLI
¿Qué área de trabajo de Azure CycleCloud para Slurm no es?
El área de trabajo de Azure CycleCloud para Slurm no es un servicio PaaS: toda la infraestructura se implementará en el inquilino, lo que le permite implementar todo (implementación de campo verde) o especificar los recursos existentes que se van a reutilizar (implementación de campo marrón), como el grupo de recursos de destino, la red virtual, Azure NetApp Files, etc.
Aspecto de un área de trabajo de Azure CycleCloud para el entorno implementado de Slurm
Esta es la arquitectura típica de lo que implementará el área de trabajo de Azure CycleCloud para Slurm. Habrá recursos obligatorios como una máquina virtual para ejecutar CycleCloud, un sistema de archivos compartido para los directorios principales de los usuarios, una cuenta de almacenamiento para el almacenamiento de proyectos de CycleCloud.
La red virtual se puede implementar mediante el área de trabajo de Azure CycleCloud para Slurm o una existente en la que se crearán los recursos. Opcionalmente, se creará un sistema de archivos de Lustre administrado de Azure en su propia subred.
Si las reglas de seguridad de la empresa no permiten la dirección IP pública (y muchas sí), podrá crear un emparejamiento de red virtual en una red virtual existente en un patrón de concentrador y radio habitual. A continuación, el centro contendrá todos los servicios de conectividad, como una puerta de enlace de red virtual o una instancia de Azure Bastion.
Por último, en una dirección IP no pública, no se requiere ningún entorno vpn, se requerirá bastión y proporcionará toda la conectividad protegida para conectarse al portal web de CycleCloud y SSH en los nodos de inicio de sesión.