Přístup k souborům pro úlohy HPC

Dokončeno

Přístup k úložišti je důležitou součástí plánování výkonu úloh PROSTŘEDÍ HPC. Potřebujete zajistit, aby se požadovaná data dostala do počítačů clusteru HPC ve správný čas. Musíte také zajistit, aby výsledky z těchto jednotlivých počítačů byly rychle uloženy a k dispozici pro další analýzu.

Soubory můžou obsahovat různé druhy dat, mezi které patří:

  • Nestrukturovaná data, jako jsou obrázky, dokumenty nebo mediální soubory.
  • Data časových řad z různých zdrojů
  • Data o cenách (například historie cen akcií).
  • Prostředky používané pro výpočetnou analýzu, jako jsou genomická data, radiologické snímky nebo simulace počasí.

Předpokládá se, že data jsou v jednom nebo více řešeních úložiště ve vašem místním prostředí. Mezi architektury úložiště v tomto kontextu patří:

  • Přímo připojené disky. To znamená, že každý počítač v clusteru PROSTŘEDÍ HPC má vlastní místní disky úložiště.
  • Řešení pro úložiště připojená k síti (NAS).
  • Řešení sítě SAN (Storage Area Network).

Diagram that shows three storage architectures.

Analytici, umělci, vědci nebo vědci mohou data vytvářet místně. Nebo data mohou být pravidelně získána od třetích stran a uložena v místním řešení úložiště.

Typy přístupu k souborům

Obecné případy použití přístupu k souborům, které probereme v tomto modulu, jsou omezené na tyto aktivity:

  • Načítání a spouštění kódu úlohy, knihoven a/nebo sad nástrojů na počítačích clusteru HPC
  • Čtení zdrojových dat pro úlohu Například denní cenová data, genomická data nebo satelitní data.
  • Přechodné nebo pomocné zápisy. Některé úlohy vyžadují zpracování počátečních dat a výstup tohoto zpracování se stane novým vstupem pro podřízenou aktivitu.
  • Vypsání výsledků úlohy Tento případ použití zahrnuje umístění dat do žádoucího umístění pro další spotřebu. Například vykreslení videa a umístění vykreslených výsledků na sdílený svazek pro použití.

Jak počítače HPC získávají data pracovní sady?

Počítače v clusteru HPC přistupují k souborům prostřednictvím přímo připojeného disku nebo prostřednictvím exportu nebo sdílené síťové složky. V obou případech se soubory zobrazují v místní cestě (například /mnt/data).

Kód a skripty, které tvoří skutečnou úlohu prostředí HPC, předpokládají, že soubory jsou v tomto systému souborů přístupné a k získání souborů používají možnosti přístupu k souborům počítače. Například počítač s Linuxem, který potřebuje přístup k souboru umístěnému v naS, by používal protokol NFS (Network File System) a klientské balíčky NFS nainstalované jako součást operačního systému.

Principy metadat souborů

Soubor ukládá skutečná data (například obrázek nebo řádky textu) a další informace označované jako metadata. Tato metadata existují buď v datech souboru, nebo v adresáři. Tato metadata je důležité pochopit v kontextu výkonu systému souborů HPC.

Metadata jsou sada hodnot, které popisují atributy dat, ale nejsou součástí dat. Metadata například říkají, kdy byl soubor vytvořen a změněn, kdo soubor vytvořil a kdo má oprávnění k přístupu.

Při vytváření souboru existují operace metadat, které přidělují struktury a aktualizují položky adresáře pro soubor. K těmto operacím dochází před zápisem dat do souboru.