Shrnutí

Dokončeno

V tomto modulu jsme probrali klíčové faktory, které se týkají výběru úložiště HPC v Azure. Teď je čas zkombinovat informace a vytvořit nástroj, který můžete použít k vyhodnocení různých možností úložiště Azure.

Pojďme vytvořit kontrolní seznam, který zapouzdřuje hlavní aspekty úložiště. Možná vás zajímá, proč je kontrolní seznam nutný, zejména pokud jste dlouho dohlíželi na aktuální prostředí úložiště. Cílem je konsolidovat informace pro ostatní zúčastněné strany, včetně členů týmu Azure a partnerů, se kterými můžete pracovat. Kontrolní seznam pomáhá zjednodušit proces rozhodování a minimalizovat případné nedorozumění ohledně schopností konkrétního řešení úložiště (nebo nedostatku schopností).

Vytvořte kontrolní seznam na základě následujícího seznamu důležitých informací.

Distribuce provozu úloh

Účty pro typy provozu, které vaše prostředí HPC generuje a zpracovává. Tento krok je zvlášť důležitý, pokud plánujete spouštět více typů úloh a plánujete používat úložiště pro jiné účely.

Vaše úloha PROSTŘEDÍ HPC může například číst sekvenční data z velkého souboru (například multimediální prostředek z úlohy vykreslování nebo souboru s pořadím genomu) z velkého počtu počítačů HPC. Současně může být potřeba provozovat databázi (například pro práci s plánovačem PROSTŘEDÍ HPC). Typy provozu se liší a možná bude potřeba je nasadit v různých řešeních úložiště.

Řešení úložiště můžou být navržená tak, aby optimalizovala různé věci. Filer NAS vytvořený z Ubuntu s místními disky NVMe by byl skvělý při aktivitách s jedním streamem, jako je jeden klient, který kopíruje data z NAS na místní disk. Nemusí se ale škálovat pro souběžný přístup velkým počtem klientů.

Můžete také potřebovat řešení, které je optimalizované pro velký počet malých souborů. Tradiční řešení NAS, jako je Azure NetApp Files, poskytuje optimální výkon pro takový provoz. Můžete ale také potřebovat zpracovat a pak uložit velké soubory a minimalizovat náklady na to. Azure Blob Storage s vrstvení v těchto případech poskytuje flexibilitu, ale nemusí poskytovat skvělý výkon pro operaci kopírování s jedním streamem.

Poznamenejte si následující typy provozu v kontrolním seznamu:

  • Přenosy s jedním datovým proudem versus provoz s více datovými proudy
  • Poměr přenosů pro čtení k zápisu provozu
  • Průměrné velikosti a počty souborů
  • Náhodné a sekvenční vzory přístupu

Kontrolní seznam může například odrážet:

  • Provoz s více datovými proudy
  • Čtení těžké (75 % oproti 25 %).
  • Průměrné velikosti souborů mezi 10 GB a 200 GB Asi 50 000 souborů.
  • Sekvenční těžké (80 % oproti 20 %).

Měli byste také počítat s hlavními úlohami, které plánujete spouštět v architektuře. Pokud existuje více než jedna nebo dvě, ujistěte se, že požadavky nejsou významné rozdíly.

Lokalita dat

Další kategorie představuje umístění dat. Potřebujete zachovat data místně? Existují obavy týkající se úprav dat při spouštění úloh prostředí HPC? Plánujete změny dat provádět pouze místně, pouze v Azure nebo v obou umístěních?

Tady jsou některé položky lokality pro kontrolní seznam:

  • Zdrojová data místně, v Azure nebo obojí?
  • Výsledky dat místně, v Azure nebo obojím?
  • Měly by být úlohy PROSTŘEDÍ HPC v Azure sladěné s časovými osami úprav zdrojových dat?
    • Časové osy pomáhají informovat o riziku zastaralých dat.
  • Citlivá data nebo data HIPAA?
    • Citlivost dat pomáhá informovat úroveň ověřování a požadovaného šifrování.

Povědomí o lokalitě vám pomůže určit, jestli jako strategii přesunu dat můžete použít kopírování, ukládání do mezipaměti nebo synchronizaci.

Požadavky na výkon

Vaše požadavky na výkon by měly vypadat přibližně takto:

  • Propustnost s jedním streamem (v GB/s)
  • Propustnost více datových proudů (v GB/s)
  • Očekávaný maximální počet vstupně-výstupních operací za sekundu
  • Průměrná latence (ms)

Všechny aspekty mají vliv na výkon, takže tato čísla představují vodítko, kterého by mělo konkrétní řešení dosáhnout. Můžete mít například úlohu PROSTŘEDÍ HPC, která v rámci pracovního postupu provede rozsáhlé vytváření a odstraňování souborů. Tyto operace můžou ovlivnit celkovou propustnost.

Přístupové metody

Účet požadovaného přístupového protokolu klienta. Jak jsme si probrali, existují různé verze systému souborů NFS (a SMB, klientský protokol Windows). Pokud plánujete používat NFSv4, je jasné, jaké funkce protokolu se vyžadují (například seznamy ACL).

Tady je několik položek pro kontrolní seznam:

  • Požadované verze systému souborů NFS
    • Pokud v4, očekávané chování protokolu (seznamy ACL, šifrování)
  • Řešení paralelního systému souborů

Požadavek na celkovou kapacitu

Další faktory, které je potřeba vzít v úvahu, je kapacita úložiště v Azure. Pomáhá informovat celkové náklady na řešení. Pokud plánujete uchovávat velké množství dat po dlouhou dobu, můžete zvážit vrstvení jako součást řešení úložiště. Vrstvení poskytuje možnosti úložiště s nižšími náklady v kombinaci s vyššími náklady, ale úložištěm s vyšším výkonem v horké vrstvě.

Některé položky seznamu:

  • Celková požadovaná kapacita
  • Celková požadovaná kapacita horké vrstvy
  • Celková požadovaná kapacita teplé vrstvy
  • Celková požadovaná kapacita studené vrstvy

Poznámka ke studené kapacitě: archivní vrstvy kombinují nižší náklady na ukládání dat s vyššími náklady na transakce při načítání dat. Archivní úrovně mají také dlouhé doby načítání dat. Neměly by se považovat za součást vašich horkých nebo teplých vrstev.

Metoda ověřování/autorizace

Přidejte do kontrolního seznamu požadavky na ověřování nebo autorizaci. Jejich přidáním zajistíte, že do architektury zahrnete vhodné podpůrné systémy, jako je server LDAP nebo prostředí Active Directory. Pokud ale potřebujete podporovat funkce, jako je mapování UID/GID na uživatele služby Active Directory, musíte ověřit, že řešení úložiště tuto funkci podporuje.

Seznam:

  • Místní (UID/GID pouze na souborových serverech)
  • Adresář (LDAP, Active Directory)
  • Mapování UID/GID na uživatele služby Active Directory?

Další texty