Доступ к файлам для заданий HPC

Завершено

Доступ к хранилищу является важной частью планирования производительности рабочей нагрузки HPC. Необходимо убедиться, что необходимые данные попадают на компьютеры кластера HPC в нужное время. Кроме того, необходимо убедиться, что результаты этих отдельных компьютеров быстро сохраняются и доступны для дальнейшего анализа.

Файлы могут включать различные виды данных, в том числе:

  • Неструктурированные данные, такие как изображения, документы или файлы мультимедиа.
  • Данные временных рядов из различных источников.
  • Данные о ценах (например, журнал цен на акции).
  • Ресурсы, используемые для вычислительного анализа, таких как геномические данные, радиологическая визуализация или моделирование погоды.

Предполагается, что данные будут находиться в одном или нескольких решениях хранилища в локальной среде. Архитектура хранилища в этом контексте включает:

  • Диски, подключенные напрямую. То есть каждый компьютер в кластере HPC имеет собственные локальные накопители.
  • Решения для хранилища, подключенного к сети (NAS).
  • Решения сетей хранения данных (SAN).

Диаграмма, показывающая три архитектуры хранения.

Аналитики, художники, исследователи или ученые могут создавать данные локально. Кроме того, данные могут периодически получаться от сторонних источников и сохраняться в вашем локальном хранилище.

Типы доступа к файлам

Общие варианты использования доступа к файлам, которые рассматриваются в этом модуле, ограничены этими действиями:

  • Загрузка и выполнение кода задания, библиотек и /или цепочки инструментов на компьютерах кластера HPC.
  • Чтение исходных данных для задания. Например, ежедневные данные о ценах, данные геномических данных или спутниковые данные.
  • Промежуточный или с нуля, записывается. Для некоторых заданий требуется обрабатывать исходные данные, а выходные данные обработки становятся новыми входными данными для нижестоящего действия.
  • Написание результатов задания. Этот вариант использования включает размещение данных в желательном расположении для дальнейшего использования. Например, рендеринг видео и размещение обработанных результатов на общем томе для использования.

Как HPC-машины получают данные рабочей области?

Машины в кластере HPC получают доступ к файлам через напрямую подключенный диск или через сетевую экспортируемую папку или общую папку. В обоих случаях файлы отображаются в локальном пути (например, /mnt/data).

Код и скрипты, составляющие фактическое задание HPC, предполагают, что файлы доступны в этой файловой системе и используют возможности доступа к файлам компьютера для получения файлов. Например, компьютер под управлением Linux, который должен получить доступ к файлу, расположенному на NAS, будет использовать протокол сетевой файловой системы (NFS) и клиентские пакеты NFS, установленные в составе операционной системы.

Общие сведения о метаданных файла

Файл хранит фактические данные (например, изображение или строки текста) и дополнительные сведения, известные как метаданные. Эти метаданные существуют либо в данных файла, либо в каталоге. Важно понимать эти метаданные в контексте производительности файловой системы HPC.

Метаданные — это набор значений, описывающих атрибуты данных, но это не является частью данных. Например, метаданные сообщают вам, когда файл был создан и изменен, кто создал файл и имеет разрешения на доступ к нему.

При создании файла существуют операции метаданных, которые выделяют структуры и обновляют записи каталога для файла. Эти операции выполняются до записи данных в файл.