Доступ к файлам для заданий HPC
Доступ к хранилищу является важной частью планирования производительности рабочей нагрузки HPC. Необходимо убедиться, что необходимые данные попадают на компьютеры кластера HPC в нужное время. Кроме того, необходимо убедиться, что результаты этих отдельных компьютеров быстро сохраняются и доступны для дальнейшего анализа.
Файлы могут включать различные виды данных, в том числе:
- Неструктурированные данные, такие как изображения, документы или файлы мультимедиа.
- Данные временных рядов из различных источников.
- Данные о ценах (например, журнал цен на акции).
- Ресурсы, используемые для вычислительного анализа, таких как геномические данные, радиологическая визуализация или моделирование погоды.
Предполагается, что данные будут находиться в одном или нескольких решениях хранилища в локальной среде. Архитектура хранилища в этом контексте включает:
- Диски, подключенные напрямую. То есть каждый компьютер в кластере HPC имеет собственные локальные накопители.
- Решения для хранилища, подключенного к сети (NAS).
- Решения сетей хранения данных (SAN).
Аналитики, художники, исследователи или ученые могут создавать данные локально. Кроме того, данные могут периодически получаться от сторонних источников и сохраняться в вашем локальном хранилище.
Типы доступа к файлам
Общие варианты использования доступа к файлам, которые рассматриваются в этом модуле, ограничены этими действиями:
- Загрузка и выполнение кода задания, библиотек и /или цепочки инструментов на компьютерах кластера HPC.
- Чтение исходных данных для задания. Например, ежедневные данные о ценах, данные геномических данных или спутниковые данные.
- Промежуточный или с нуля, записывается. Для некоторых заданий требуется обрабатывать исходные данные, а выходные данные обработки становятся новыми входными данными для нижестоящего действия.
- Написание результатов задания. Этот вариант использования включает размещение данных в желательном расположении для дальнейшего использования. Например, рендеринг видео и размещение обработанных результатов на общем томе для использования.
Как HPC-машины получают данные рабочей области?
Машины в кластере HPC получают доступ к файлам через напрямую подключенный диск или через сетевую экспортируемую папку или общую папку. В обоих случаях файлы отображаются в локальном пути (например, /mnt/data).
Код и скрипты, составляющие фактическое задание HPC, предполагают, что файлы доступны в этой файловой системе и используют возможности доступа к файлам компьютера для получения файлов. Например, компьютер под управлением Linux, который должен получить доступ к файлу, расположенному на NAS, будет использовать протокол сетевой файловой системы (NFS) и клиентские пакеты NFS, установленные в составе операционной системы.
Общие сведения о метаданных файла
Файл хранит фактические данные (например, изображение или строки текста) и дополнительные сведения, известные как метаданные. Эти метаданные существуют либо в данных файла, либо в каталоге. Важно понимать эти метаданные в контексте производительности файловой системы HPC.
Метаданные — это набор значений, описывающих атрибуты данных, но это не является частью данных. Например, метаданные сообщают вам, когда файл был создан и изменен, кто создал файл и имеет разрешения на доступ к нему.
При создании файла существуют операции метаданных, которые выделяют структуры и обновляют записи каталога для файла. Эти операции выполняются до записи данных в файл.