Introducción a la arquitectura de lift-and-shift de HPC de un extremo a otro
"Lift and shift" en el contexto de informática de alto rendimiento (HPC) hace referencia principalmente al proceso de migración de un entorno local y una carga de trabajo a la nube. Lo ideal es que las modificaciones sean mínimas (por ejemplo, las aplicaciones, los programadores de trabajos y sus configuraciones deberían seguir siendo prácticamente los mismos). Es natural que se produzcan ajustes en el almacenamiento y el hardware, ya que los recursos son diferentes en las plataformas locales y en la nube. Con el enfoque de lift-and-shift, las organizaciones pueden empezar a beneficiarse de la nube más rápidamente.
En la ilustración siguiente se representa un clúster de HPC local típico en un entorno de producción, que el fabricante de hardware suele entregar. Este entorno local consta de un conjunto de nodos de proceso, que pueden funcionar o no con imágenes y contenedores de máquina virtual. Estos nodos ejecutan cargas de trabajo administradas por un programador de trabajos, que pueden ser Slurm, PBS o LSF normalmente. Las cargas de trabajo proceden de varios usuarios que tienen asociada la administración de identidades. Normalmente hay directorios de inicio, discos de memoria virtual y almacenamiento a largo plazo. También se dispone de algún tipo de supervisión para comprobar el rendimiento de los trabajos y el estado de los nodos de cálculo. Los usuarios pueden acceder al entorno a través de la línea de comandos, exploradores o algún tipo de tecnología de visualización remota. Todo el entorno se hospeda en una red privada, por lo que los usuarios tienen algún mecanismo para acceder a la instalación informática, ya sea a través de VPN o a través del portal.
Como vemos a lo largo de este documento, el entorno en la nube siguiendo el modelo de infraestructura como servicio, conceptualmente hablando, no es tan diferente. Algunas tecnologías necesitan algunas actualizaciones y algunos pasos durante la migración desde el entorno local a la nube son necesarios.
Por lo tanto, este documento:
- Recorre las opciones del proceso de migración;
- Ofrece indicaciones sobre productos y procedimientos recomendados para cada componente;
- Y ofrece recomendaciones para evitar problemas en el proceso.
Antes de pasar a la descripción de la arquitectura, es importante comprender las diferentes personas en este contexto, sus necesidades y expectativas.
Personas y experiencia del usuario
Hay diferentes personas que necesitan acceder al entorno de HPC. Sus actividades y cómo interactúan con el entorno varían bastante.
Usuario final (ingeniero/científico/investigador)
Esta persona representa al experto en la materia (por ejemplo, biólogo, físico, ingeniero, etc.) que desea realizar experimentos (es decir, enviar trabajos) y analizar los resultados. Los usuarios finales interactúan con los administradores de sistemas para ajustar el entorno informático siempre que sea necesario. Es posible que tengan cierta experiencia en el uso de herramientas basadas en CLI, pero algunos de ellos pueden confiar únicamente en portales web o interfaces gráficas de usuario a través de VDI para enviar sus trabajos e interactuar con los resultados generados.
Nuevas responsabilidades en el entorno de HPC en la nube:
- El usuario final no debería tener nuevas responsabilidades basadas en el trabajo tanto del Administrador de HPC como del Administrador de la nube. En función del entorno local, los usuarios finales tienen acceso a una mayor capacidad y variedad de recursos informáticos para ser más productivos.
Administrador de HPC
Esta persona representa a la que tiene experiencia en HPC y es responsable de implementar la infraestructura informática inicial y adaptarla en función de las necesidades empresariales y de los usuarios finales. Esta persona también es responsable de verificar el estado del sistema y de solucionar los problemas. Los administradores de HPC se sienten cómodos accediendo a la arquitectura y sus componentes a través de CLI, SDK y portales web. También son el primer punto de contacto cuando los usuarios finales se enfrentan a cualquier problema con el entorno informático.
Nuevas responsabilidades en el entorno de HPC en la nube:
- Administración de recursos y servicios en nube (por ejemplo, máquinas virtuales, almacenamiento, redes) mediante plataformas de administración de la nube.
- Implementación y administración de clústeres y recursos mediante nuevas herramientas de orquestación de recursos (por ejemplo, CycleCloud).
- Optimización de la implementación de aplicaciones mediante la comprensión de los detalles de la infraestructura (es decir, tipos de máquina virtual, almacenamiento y opciones de red).
- Optimización del uso y los costos de los recursos mediante características específicas de la nube, como el escalado automático y las instancias de acceso puntual.
Administrador de la nube
Esta persona trabaja con el administrador de HPC para ayudar a implementar y mantener la infraestructura informática. Esta persona no es (necesariamente) un experto en HPC, sino un experto en la nube con un profundo conocimiento de la infraestructura general de TI de la empresa, incluidas las configuraciones y directivas de red, los derechos de acceso de los usuarios y los dispositivos de los usuarios. Dependiendo del caso, el administrador de HPC y el administrador de la nube pueden ser la misma persona.
Nuevas responsabilidades en el entorno de HPC en la nube:
- Colaboración con administradores de HPC para garantizar una integración perfecta de las cargas de trabajo de HPC con la infraestructura de nube.
- Supervisión y administración del rendimiento, la seguridad y el cumplimiento de la infraestructura de la nube.
- Ayuda en la configuración de soluciones de red y almacenamiento basadas en la nube para soportar cargas de trabajo HPC.
Administrador / propietario de la empresa
Esta persona representa al responsable de la empresa, lo que incluye ocuparse del presupuesto y de los proyectos para cumplir los objetivos de la organización. Para esta persona, el componente contable de la arquitectura es relevante para comprender los costes de cada proyecto. Esta persona trabaja con administradores de HPC y usuarios finales para comprender las necesidades de la plataforma, incluidos el almacenamiento, la red y los recursos informáticos. También planean cargas de trabajo futuras.
Nuevas responsabilidades en el entorno de HPC en la nube:
- Análisis de informes detallados de costes y métricas de utilización proporcionados por proveedores de servicios en la nube para administrar presupuestos y prever gastos.
- Toma de decisiones estratégicas basadas en el uso de recursos en la nube y las oportunidades de optimización de costes.
- Planeamiento y aprobación de inversiones en infraestructura de nube para soportar futuras cargas de trabajo de HPC y objetivos empresariales.
Introducción a la arquitectura lift-and-shift
Un entorno de HPC de producción en la nube consta de varios componentes. Existen algunos componentes básicos para poner en marcha un entorno, como un programador de trabajos, un proveedor de recursos, un dispositivo de entrada para que el usuario acceda al entorno, dispositivos de proceso y almacenamiento, entre otros. A medida que el entorno entra en producción, la supervisión, la observabilidad, los controles de estado, la seguridad, la administración de identidades, la responsabilidad y las distintas opciones de almacenamiento, entre otros componentes, empiezan a desempeñar un papel fundamental.
También hay extensiones que podrían estar presentes, como nodos de inicio de sesión, movedores de datos, uso de contenedores, administradores de licencias, entre otros que dependen de la instalación.
Este entorno a nivel de producción puede tener varios componentes que hay que configurar. Por lo tanto, los implementadores y administradores de entornos se convierten en la clave para automatizar su implementación inicial y actualizarla a lo largo del proceso, respectivamente. Las instalaciones más avanzadas también pueden tener plantillas de entorno (o especificaciones) con versiones de software y configuraciones más óptimas y probadas adecuadamente. Una vez que el entorno está en producción con todos los componentes necesarios en su lugar, con el tiempo, pueden ser necesarios ajustes para satisfacer las demandas de los usuarios, incluidos los cambios en los tipos de máquinas virtuales o las opciones/capacidades de almacenamiento.
Creación de instancias de la arquitectura en la nube de HPC lift-and-shift
Aquí proporcionamos más detalles sobre cada componente de la arquitectura, incluidos enlaces a productos oficiales de Azure, blogs técnicos con algunos procedimientos recomendados, repositorios Git y vínculos a soluciones que no son productos.
Inicio rápido. Para una solución de inicio rápido para crear un entorno de HPC en la nube con bloques de construcción básicos, recomendamos usar el Área de trabajo de Azure CycleCloud Slurm.