Resumen

Completado

En este módulo hemos analizado los factores clave implicados en la elección del almacenamiento de HPC en Azure. Ahora es el momento de combinar la información y de crear una herramienta que pueda usar para evaluar las distintas opciones de almacenamiento de Azure.

Crearemos una lista de comprobación que incluya las principales consideraciones de almacenamiento. Es posible que se pregunte por qué se necesita una lista de comprobación, sobre todo si hace tiempo que supervisa el entorno de almacenamiento actual. El objetivo es consolidar la información para otras partes interesadas, incluidos los miembros del equipo de Azure y los asociados con los que trabaje. La lista de comprobación le ayudará a simplificar el proceso de toma de decisiones y a minimizar los malentendidos relacionados con las funciones de una solución de almacenamiento concreta (o a la falta de ellas).

Creará la lista de comprobación en función de las consideraciones siguientes.

Distribución del tráfico de la carga de trabajo

Tenga en cuenta los tipos de tráfico que genera y procesa el entorno de HPC. Este paso es muy importante si tiene previsto ejecutar varios tipos de cargas de trabajo y tiene previsto usar el almacenamiento para otros fines.

Por ejemplo, es posible que la carga de trabajo de HPC lea datos secuenciales de un archivo grande (como un recurso multimedia de un trabajo de representación o un archivo de secuencia genómica) desde un gran número de máquinas de HPC. Al mismo tiempo, es posible que haya que usar una base de datos (por ejemplo, para trabajar con el programador de HPC). Los tipos de tráfico son diferentes y es posible que se tengan que implementar en soluciones de almacenamiento distintas.

Las soluciones de almacenamiento pueden estar diseñadas a fin de optimizarse para diferentes fines. Un archivo NAS creado a partir de Ubuntu que ejecute discos NVMe locales iría muy bien en actividades de flujo único, como un solo cliente que copie datos del NAS al disco local. Pero es posible que no escale el acceso simultáneo a un gran número de clientes.

Además, es posible que necesite una solución que se optimice para un gran número de archivos pequeños. Una solución NAS tradicional, como Azure NetApp Files, ofrece un rendimiento óptimo para ese tipo de tráfico. Pero es posible que también necesite procesar y almacenar archivos grandes, y minimizar el costo de esta operación. Azure Blob Storage con la organización en niveles proporciona flexibilidad en estos casos, pero es posible que no ofrezca un gran rendimiento para una operación de copia de un solo flujo.

Registre los siguientes tipos de tráfico en la lista de comprobación:

  • Tráfico de flujo único frente a tráfico de varios flujos
  • Proporción entre tráfico de lectura y de escritura
  • Promedio de tamaños y recuentos de archivos
  • Patrones de acceso aleatorios frente a secuenciales

Por ejemplo, la lista de comprobación puede reflejar lo siguiente:

  • Tráfico de varios flujos.
  • Lectura pesada (75 % frente al 25 %).
  • Tamaño de archivo medio entre 10 GB y 200 GB. Aproximadamente 50 000 archivos.
  • Mucha actividad secuencial (80 % frente al 20%).

También debe tener en cuenta las cargas de trabajo principales que planea ejecutar en la arquitectura. Si hay más de una o dos, asegúrese de que no haya una divergencia significativa en los requisitos.

Localidad de los datos

La siguiente categoría da cuenta de la ubicación de los datos. ¿Necesita mantener los datos locales? ¿Hay dudas sobre las modificaciones de datos mientras se ejecuta la carga de trabajo de HPC? ¿Tiene previsto que las modificaciones de datos solo se realicen de forma local, solo en Azure o en ambas ubicaciones?

Estos son algunos elementos de localidad de la lista de comprobación:

  • ¿Datos de origen locales, en Azure o ambos?
  • ¿Datos de resultados locales, en Azure o ambos?
  • ¿Se coordinarán las cargas de trabajo de HPC en Azure con las escalas de tiempo de modificación de los datos de origen?
    • Las escalas de tiempo le ayudarán a determinar el riesgo de datos obsoletos.
  • ¿Datos confidenciales/HIPAA?
    • La confidencialidad de los datos ayudará a determinar el nivel de autenticación y cifrado necesario.

El reconocimiento de la localidad le ayuda a determinar si puede usar la copia, el almacenamiento en caché o la sincronización como estrategia de movimiento de datos.

Requisitos de rendimiento

Los requisitos de rendimiento pueden ser similares a los siguientes:

  • Rendimiento de un solo flujo (en GB/s)
  • Rendimiento de varios flujos (en GB/s)
  • IOPS máxima esperada
  • Latencia media (ms)

Cada consideración afecta al rendimiento, por lo que estos números representan una guía que una solución determinada debe lograr. Por ejemplo, es posible que tenga una carga de trabajo de HPC que realice numerosas operaciones de creación y eliminación de archivos como parte del flujo de trabajo. Dichas operaciones podrían afectar al rendimiento general.

Métodos de acceso

Tenga en cuenta el protocolo de acceso de cliente necesario. Como se ha comentado, hay diferentes versiones de NFS (y de SMB, el protocolo cliente de Windows). Si planea usar NFSv4, tenga claro qué características del protocolo son necesarias (por ejemplo, las ACL).

Estos son algunos elementos de la lista de comprobación:

  • Versiones de NFS necesarias
    • Si es v4, comportamientos de protocolo esperados (ACL, cifrado)
  • Solución de sistema de archivos paralelos

Requisito de capacidad total

La capacidad de almacenamiento de Azure es la siguiente consideración. Ayuda a informar del costo general de la solución. Si tiene previsto almacenar una gran cantidad de datos durante un período de tiempo prolongado, puede que quiera tener en cuenta los niveles como parte de la solución de almacenamiento. Los niveles ofrecen opciones de almacenamiento de menor costo combinadas con un almacenamiento de mayor costo pero mayor rendimiento en un nivel de acceso frecuente.

Algunos elementos de la lista:

  • Capacidad total necesaria
  • Capacidad total de "nivel de acceso frecuente" necesaria
  • Capacidad total de "nivel activo" necesaria
  • Capacidad total de "nivel inactivo" necesaria

Nota sobre la capacidad de nivel inactivo: los niveles de archivo combinan costos menores para almacenar datos con mayores costos de transacciones para recuperar datos. Además, los niveles de archivo presentan unos tiempos de recuperación de datos extensos. No se deben considerar parte de los niveles de acceso frecuente o activo.

Método de autenticación o autorización

Agregue los requisitos de autenticación o autorización a la lista de comprobación. Como mínimo, al agregarlos se garantiza la inclusión de los sistemas de soporte adecuados, como un servidor LDAP o un entorno de Active Directory, en la arquitectura. Pero si necesita admitir funcionalidades como la asignación de UID o GID a usuarios de Active Directory, deberá confirmar que la solución de almacenamiento las admite.

Para la lista:

  • Local (UID o GID solo en el servidor de archivos)
  • Directorio (LDAP, Active Directory)
  • ¿Asignación de UID/GID a usuarios de Active Directory?

Información adicional