Důležité informace o provozu systému souborů

Dokončeno

Důležitými hodnotami jsou cílové IOPS, propustnost a latence. Abyste ale optimalizovali výkon, musíte také určit, jak vaše úlohy PROSTŘEDÍ HPC komunikují se systémem souborů. Dalším krokem je kvantifikovat škálování provozu a kombinovat, že váš systém souborů potřebuje podporu.

Důležité informace o kombinaci přenosů

Kombinace přenosů se týká make-upu provozu úloh PROSTŘEDÍ HPC z hlediska:

  • Poměr přenosů pro čtení k zápisu provozu (Například 100 % čtení, 50 % čtení a 50 % zápisu, 100% zápis.)
  • Náhodné versus sekvenční čtení/zápis.
  • Kontrolní body a snímky
  • Souběžnost:
  • Množství a velikost souboru.

Ve zbývající části této lekce se podíváme na to, jak tato kombinace typů provozu ovlivňuje vaše volby úložiště.

Čtení provozu vs. zápis provozu vs. vytvoření nebo odstranění

Operace čtení a zápisu spotřebovávají IOPS stejně. Zvolený systém souborů ale může na příchozí provoz zápisu použít vysokou dostupnost, což znamená pomalejší, ale odolnou propustnost zápisu.

Výkon může být ovlivněn, pokud vaše úloha PROSTŘEDÍ HPC provede velký počet operací náročných na metadata. Například vytváření souborů, přejmenování adresářových struktur nebo odstraňování souborů. Vytvoření souboru může využívat několik operací. (Zkontrolujte, jestli soubor existuje, vytvořte popisovač souboru, aktualizujte položku adresáře atd.)

Vaše úloha PROSTŘEDÍ HPC se může do značné míry soustředit na transformaci dat, takže objem provozu zápisu může být významný. V takovém případě chcete upřednostnit optimalizaci výkonu zápisu.

Náhodný vs. sekvenční provoz

Přístup k aplikacím řídí typ vzorce čtení a zápisu provozu, které vaše úloha může vyžadovat.

Úlohy prostředí HPC můžou být vysoce paralelní a mnoho počítačů požadujících stejná data ze sdíleného systému souborů. Nebo mohou být jedinečné a serializované, s jedinečnými a náhodnými vzory přístupu k datům. Sekvenční výkon provozu je větší než náhodný provoz. Příkladem sekvenčního provozu by bylo načítání binární knihovny nebo velkého obrázku nebo videosouboru jedním nebo více počítači. Příkladem náhodného provozu by byly požadavky na různé bajtové rozsahy jednoho souboru nebo více souborů, a ne čtení celého souboru.

Kontrolní body a snímky

Úlohy jsou často kontrolní body. Při vytváření kontrolních bodů se stav aplikace a jeho data zkopírují do odolného úložiště a pak úloha pokračuje. Kontrolní bod se používá k obnovení dlouhotrvajících úloh bez nutnosti restartování celé úlohy. Kontrolní body je možné použít také se snímky. Snímky jsou kopie systému souborů jen pro čtení, které jsou pořízeny v určitém okamžiku. Kontrolní body si můžete představit jako závislé na aplikaci nebo na aplikaci, ale snímky jsou relevantní na úrovni systému souborů.

Kontrolní body i snímky spotřebovávají IOPS a úložiště. To znamená, že ovlivňují celkový výkon systému souborů v závislosti na jejich četnosti a množství zahrnutých dat.

Souběžnost

Počet souběžných klientů a vláken je dalším faktorem, který je potřeba zvážit při výběru systému souborů. Mnoho úloh PROSTŘEDÍ HPC vyžaduje během fází spouštění úloh a výsledků významnou souběžnost, pravděpodobně do stovek nebo tisíců vláken. Například úloha se může inicializovat na sto 16jádrových počítačích, přičemž každé jádro pracuje s jedním nebo dvěma souběžnými vlákny. Souběžnost vláken v takovém případě může být kdekoli od 1 600 do 3 200 vláken. Všechna tato vlákna můžou číst binární soubory (knihovny, sady nástrojů atd.), které jsou potřeba před pokračováním úlohy. Aby se minimalizovala doba běhu úlohy, musí být základní systém úložiště schopný poskytovat rychlé odpovědi na tyto požadavky na čtení.

Stejná úloha může přestat vyžadovat jakýkoli souběžný přístup. Nebo může vyžadovat nárazový přístup k více datům souboru nebo zapsat přechodné výsledky pro jiná vlákna v úloze ke čtení.

Počet a velikost souboru

Když vyberete úložiště souborů, musíte také zvážit počet a průměrnou velikost souborů. Úloha, která využívá 2 TB dat, má různé charakteristiky výkonu, pokud se tato sada 2 TB skládá ze sto 20GB souborů na rozdíl od 10 tisíc 200 MB souborů. Zvlášť pokud jsou 10 tisíc souborů vnořené do hlubokých adresářových struktur.

Doporučujeme identifikovat nejpravděpodobnější pracovní sadu dat. Pracovní sada představuje potenciální maximální počet souborů a požadovanou velikost souboru. Zkuste identifikovat definice maximální a průměrné pracovní sady a použít je k plánování.

Není vždy snadné definovat pracovní sadu, zejména pro prostředí na rozdíl od jedné úlohy PROSTŘEDÍ HPC. Jeden den můžete například potřebovat vytvořit malou simulaci se statickou sadou dat. Další den možná budete muset vertikálně navýšit kapacitu a provést větší analýzu s průběžnými výstupy a kontrolními body.

Kontrola znalostí

1.

Kopie systému souborů jen pro čtení, která se provádí v určitém okamžiku, se označuje jako:

2.

Potenciální maximální počet a velikost souborů, které vaše úloha vyžaduje, se označuje jako: