对 HPC 作业的文件访问
计划 HPC 工作负载性能时,存储访问不可或缺。 你需要确保所需数据在适当的时间传输到 HPC 群集计算机。 你还需要确保来自这些个人计算机的结果被快速保存并可用于进一步分析。
文件可以包含不同类型的数据,其中包括:
- 非结构化数据,例如映像、文档或媒体文件。
- 来自各种源的时序数据。
- 定价数据(如股票价格历史记录)。
- 用于计算分析的资产,例如基因组数据、放射图像或天气模拟。
假设数据驻留在本地环境中的一个或多个存储解决方案中。 此上下文中的存储体系结构包含:
- 直接附加的磁盘。 即 HPC 群集中的每台计算机都有自己的本地存储磁盘。
- 网络附加存储 (NAS) 解决方案。
- 存储区域网络 (SAN) 解决方案。
分析师、艺术家、研究人员或科学家可能会在本地创建数据。 或者,数据可能是从第三方定期获取并存放在本地存储解决方案中的。
文件访问类型
我们在本模块中讨论的常规文件访问用例仅限于以下活动:
- 在 HPC 群集计算机上加载和运行作业代码、库和/或工具链。
- 读取作业的源数据。 例如,每日定价数据、基因组数据或卫星数据。
- 中间或暂存写入。 某些作业要求处理初始数据,并且该处理的输出会成为下游活动的新输入。
- 写出作业结果。 此用例涉及到将数据放置在合适的位置,以供进一步使用。 例如,呈现视频并将呈现的结果放置在共享卷中以供使用。
HPC 计算机如何获取工作集数据?
HPC 群集中的计算机通过直接附加磁盘或通过网络导出或共享来访问文件。 在这两种情况下,文件都显示在本地路径(例如 /mnt/data)中。
组成实际 HPC 作业的代码和脚本假定文件在此文件系统上是可访问的,并利用计算机的文件访问功能来获取文件。 例如,如果有台计算机正在运行 Linux 且需要访问 NAS 上的文件,它会使用作为操作系统的一部分安装的网络文件系统 (NFS) 协议和 NFS 客户端包。
了解文件元数据
文件存储实际数据(例如映像和文本行)和其他称作元数据的信息。 该元数据存在于文件数据或目录中。 了解 HPC 文件系统性能上下文中的这些元数据很重要。
元数据是一组描述数据属性的值,但不是数据的一部分。 例如,可通过元数据了解创建和修改文件的时间、创建文件的用户以及有权限访问该文件的人员。
创建文件时,会有一些元数据操作可用于分配结构和更新该文件的目录条目。 这些操作出现在数据写入文件之前。