Acceso a archivos para trabajos de HPC

Completado

El acceso al almacenamiento es una parte importante de la planificación del rendimiento de la carga de trabajo de HPC. Debe asegurarse de que los datos necesarios llegarán a las máquinas del clúster de HPC en el momento adecuado. También debe asegurarse de que los resultados de esas máquinas individuales se guardan rápidamente y están disponibles para su posterior análisis.

Los archivos pueden incluir distintos tipos de datos, entre los que se incluyen:

  • Datos no estructurados, como imágenes, documentos o archivos multimedia.
  • Datos de serie temporal de varios orígenes.
  • Datos de precios (por ejemplo, el historial de precios).
  • Recursos usados para el análisis computacional, como datos de genoma, imágenes radiológicas o simulaciones meteorológicas.

Se supone que los datos se encuentran en una o varias soluciones de almacenamiento en el entorno local. Entre las arquitecturas de almacenamiento de este contexto se incluyen las siguientes:

  • Discos conectados directamente; es decir, cada máquina del clúster de HPC tiene sus propios discos de almacenamiento local.
  • Soluciones de almacenamiento conectado a la red (NAS).
  • Soluciones de red de área de almacenamiento (SAN).

Diagram that shows three storage architectures.

Los analistas, artistas, investigadores o científicos pueden crear los datos localmente. También pueden adquirirse periódicamente de terceros y depositarse en su solución de almacenamiento local.

Tipos de acceso a archivos

Los casos de uso generales de acceso a archivos que se tratarán en este módulo se limitan a estas actividades:

  • Carga y ejecución de código de trabajo, bibliotecas o cadenas de herramientas en las máquinas del clúster de HPC.
  • Lectura de datos de origen para un trabajo. Por ejemplo, datos de precios diarios, de genoma o de satélites.
  • Operaciones de escritura intermedias o temporales. En algunos trabajos es necesario que se procesen los datos iniciales y que la salida de ese procesamiento se convierta en una entrada nueva para la actividad de bajada.
  • Escritura de los resultados de un trabajo. Este caso de uso implica colocar los datos en una ubicación deseada para su consumo adicional. Por ejemplo, la representación de un vídeo y la colocación de los resultados representados en un volumen compartido para su uso.

¿Cómo obtienen los datos del espacio de trabajo las máquinas de HPC?

Las máquinas del clúster de HPC acceden a los archivos mediante un disco conectado directamente, o bien una exportación o un recurso compartido de red. En ambos casos, los archivos se presentan en una ruta de acceso local (por ejemplo, /mnt/data).

El código y los scripts que componen el trabajo de HPC real suponen que los archivos son accesibles en este sistema de archivos y usan las funciones de acceso a archivos de la máquina para obtener los archivos. Por ejemplo, una máquina que ejecute Linux y que necesite acceder a un archivo ubicado en un servidor NAS usaría el protocolo Network File System (NFS) y los paquetes de cliente NFS instalados como parte del sistema operativo.

Descripción de los metadatos de archivo

Un archivo almacena datos reales (por ejemplo, una imagen o líneas de texto) e información adicional conocida como metadatos. Estos metadatos se encuentran dentro de los datos del archivo o en un directorio. Es importante comprender estos metadatos en el contexto del rendimiento del sistema de archivos HPC.

Los metadatos son un conjunto de valores que describen atributos de datos, pero que no forman parte de ellos. Por ejemplo, los metadatos le indican cuándo se ha creado y modificado un archivo, quién lo ha creado y quién tiene permisos para acceder a él.

Cuando se crea un archivo, hay operaciones de metadatos que asignan las estructuras y actualizan las entradas de directorio del archivo. Estas operaciones se producen antes de que los datos se escriban en el archivo.