Přístup k souborům pro úlohy HPC
Přístup k úložišti je důležitou součástí plánování výkonu úloh PROSTŘEDÍ HPC. Potřebujete zajistit, aby se požadovaná data dostala do počítačů clusteru HPC ve správný čas. Musíte také zajistit, aby výsledky z těchto jednotlivých počítačů byly rychle uloženy a k dispozici pro další analýzu.
Soubory můžou obsahovat různé druhy dat, mezi které patří:
- Nestrukturovaná data, jako jsou obrázky, dokumenty nebo mediální soubory.
- Data časových řad z různých zdrojů
- Data o cenách (například historie cen akcií).
- Prostředky používané pro výpočetnou analýzu, jako jsou genomická data, radiologické snímky nebo simulace počasí.
Předpokládá se, že data jsou v jednom nebo více řešeních úložiště ve vašem místním prostředí. Mezi architektury úložiště v tomto kontextu patří:
- Přímo připojené disky. To znamená, že každý počítač v clusteru PROSTŘEDÍ HPC má vlastní místní disky úložiště.
- Řešení pro úložiště připojená k síti (NAS).
- Řešení sítě SAN (Storage Area Network).
Analytici, umělci, vědci nebo vědci mohou data vytvářet místně. Nebo data mohou být pravidelně získána od třetích stran a uložena v místním řešení úložiště.
Typy přístupu k souborům
Obecné případy použití přístupu k souborům, které probereme v tomto modulu, jsou omezené na tyto aktivity:
- Načítání a spouštění kódu úlohy, knihoven a/nebo sad nástrojů na počítačích clusteru HPC
- Čtení zdrojových dat pro úlohu Například denní cenová data, genomická data nebo satelitní data.
- Přechodné nebo pomocné zápisy. Některé úlohy vyžadují zpracování počátečních dat a výstup tohoto zpracování se stane novým vstupem pro podřízenou aktivitu.
- Vypsání výsledků úlohy Tento případ použití zahrnuje umístění dat do žádoucího umístění pro další spotřebu. Například vykreslení videa a umístění vykreslených výsledků na sdílený svazek pro použití.
Jak počítače HPC získávají data pracovní sady?
Počítače v clusteru HPC přistupují k souborům prostřednictvím přímo připojeného disku nebo prostřednictvím exportu nebo sdílené síťové složky. V obou případech se soubory zobrazují v místní cestě (například /mnt/data).
Kód a skripty, které tvoří skutečnou úlohu prostředí HPC, předpokládají, že soubory jsou v tomto systému souborů přístupné a k získání souborů používají možnosti přístupu k souborům počítače. Například počítač s Linuxem, který potřebuje přístup k souboru umístěnému v naS, by používal protokol NFS (Network File System) a klientské balíčky NFS nainstalované jako součást operačního systému.
Principy metadat souborů
Soubor ukládá skutečná data (například obrázek nebo řádky textu) a další informace označované jako metadata. Tato metadata existují buď v datech souboru, nebo v adresáři. Tato metadata je důležité pochopit v kontextu výkonu systému souborů HPC.
Metadata jsou sada hodnot, které popisují atributy dat, ale nejsou součástí dat. Metadata například říkají, kdy byl soubor vytvořen a změněn, kdo soubor vytvořil a kdo má oprávnění k přístupu.
Při vytváření souboru existují operace metadat, které přidělují struktury a aktualizují položky adresáře pro soubor. K těmto operacím dochází před zápisem dat do souboru.