Sdílet prostřednictvím


Úložiště pro úlohy Azure HPC

Přístup k úložišti je zásadním faktorem, který je potřeba vzít v úvahu při plánování výkonu úloh vysokovýkonných výpočetních prostředí (HPC). Rozsáhlé úlohy PROSTŘEDÍ HPC v určitých prostředích můžou vytvářet požadavky na ukládání dat a přístup, které překračují možnosti tradičních cloudových systémů souborů. Tento článek obsahuje doporučení, která vám pomůžou zvolit správné úložiště pro úlohy Azure HPC. Poskytuje také doporučení týkající se úložiště pro úlohy HPC v odvětví energetiky, financí a výroby.

Zvažte následující faktory související s požadavky vaší aplikace, které vám pomůžou rozhodnout, které řešení úložiště se má použít:

  • Latence
  • Vstupně-výstupní operace za sekundu (IOPS)
  • Propustnost
  • Velikosti a počet souborů
  • Doba běhu úlohy
  • Náklady
  • Umístění úložiště – místní a Azure

Další informace najdete v části Pochopení faktorů, které ovlivňují výběr úložiště HPC v Azure.

Následující diagram znázorňuje rozhodovací strom, který je určený pro konkrétní volbu systému úložiště HPC.

Diagram znázorňující rozhodovací strom důležitých aspektů při výběru řešení úložiště

Důležité informace o prostředí HPC

Společnosti zabývající se ropou a plynem musí být schopny efektivně spravovat a ukládat exabajty seismických dat, dat o vrtech, map a pronájmů. Aby tato data mohli používat, potřebují vysoce výkonnou infrastrukturu, která dokáže zpracovávat a dodávat analýzy v reálném čase, aby pomohla optimalizovat výrobu, snížit rizika životního prostředí a zlepšit provozní bezpečnost.

datové úložiště a potřeby přístupu se značně liší v závislosti na škálování úloh. Azure podporuje několik přístupů ke správě rychlosti a kapacity aplikací HPC.

Rozsáhlé dávkové úlohy a HPC úlohy v energetickém odvětví mají požadavky na ukládání dat a přístup, které překračují možnosti tradičních souborových systémů v cloudu. Požadavky na vysokovýkonné vstupně-výstupní operace a rozsáhlé potřeby škálovatelnosti v prostředí HPC představují jedinečné výzvy pro ukládání a přístup k datům.

HPC řeší složité problémy, jako je simulace seismických jevů a zásobníků a modelování, které nejsou praktické nebo nákladově efektivní pro zpracování tradičními výpočetními metodami. HpC tyto problémy řeší kombinací paralelního zpracování a masivní škálovatelnosti, která umožňuje rychle, efektivně a spolehlivě provádět rozsáhlé a složité výpočetní úlohy.

V clusterech Azure HPC jsou výpočetní uzly virtuální počítače, které můžete rychle vytvořit za účelem provádění úloh přiřazených ke clusteru. Tyto uzly distribuují výpočetní úlohy napříč clusterem. Tato distribuce pomáhá dosáhnout vysoce výkonného paralelního zpracování potřebného k řešení složitých problémů s prostředím HPC. Výpočetní uzly musí při spouštění úloh provádět operace čtení a zápisu ve sdíleném pracovním úložišti. Uzly přistupují k tomuto úložišti v řadě scénářů, které leží mezi následujícími dvěma extrémními hodnotami:

  • Jedna sada dat na mnoho výpočetních uzlů. V tomto scénáři je v síti jeden zdroj dat, ke kterému mají všichni výpočetní uzly přístup pro pracovní data. I když jsou strukturálně jednoduché, vstupně-výstupní kapacita umístění úložiště omezuje vstupně-výstupní operace.

  • Mnoho sad dat na mnoho výpočetních uzlů. V tomto scénáři je v síti mnoho zdrojů dat, ke kterým všechny výpočetní uzly přistupují k pracovním datům. I když jsou strukturálně jednoduché, vstupně-výstupní kapacita umístění úložiště omezuje vstupně-výstupní operace.

Doporučení k návrhu prostředí HPC

Vyberte řešení, které je nejvhodnější pro vaše jedinečné požadavky na vstupně-výstupní operace a kapacitu.

Systém souborů sítě

Systém souborů NFS (Network File System) se často používá k poskytování přístupu ke sdíleným umístěním úložiště. Serverový virtuální počítač, který používá systém souborů NFS, sdílí svůj místní systém souborů. V Azure je tento systém souborů uložený na jednom nebo více virtuálních pevných discích hostovaných ve službě Azure Storage. Klienti pak můžou připojit sdílené soubory serveru a přistupovat ke sdílenému umístění přímo.

Systém souborů NFS se často používá pro domovské adresáře a prostory projektů, které vyžadují přístup napříč všemi uzly. Může poskytnout prostor pro výzkumné skupiny, které sdílejí data. Obecně platí, že úlohy propustnosti jsou horizontálně škálovatelné s malou závislostí mezi jednotlivými úlohami. Plánovače úloh rozdělují práci mezi uzly a koordinuje aktivitu. NFS je typické sdílené úložiště napříč uzly, ke kterým se přistupuje přes sítě TCP/IP.

Systém souborů NFS má výhodu snadného nastavení a údržby a je podporován v operačních systémech Linux i Windows. K rozložení úložiště v síti je možné použít několik serverů NFS, ale jednotlivé soubory jsou přístupné pouze prostřednictvím jednoho serveru.

U úloh s nízkou škálou zvažte spuštění NFS na hlavním uzlu pomocí virtuálního počítače optimalizovaného pro úložiště, který má velké dočasné disky, nebo počítače řady D s Azure Premium Storage podle požadavků. Toto řešení vyhovuje úlohám, které mají 500 jader nebo méně.

Ve scénářích PROSTŘEDÍ HPC může souborový server často sloužit jako kritický bod, který omezuje celkový výkon. Pokusy o přístup k necachedovaným datům z jednoho serveru NFS s vyšší rychlostí, než je zdokumentovaný maximální počet IOPS a propustnost jednotlivých virtuálních počítačů, vede k omezování.

Ve scénáři, kdy se desítky klientů pokusí pracovat na datech uložených na jednom serveru NFS, můžete tyto limity snadno dosáhnout. Tato omezení můžou způsobit, že dojde k omezení výkonu celé aplikace. Čím blíže se váš HPC software podobá čistému scénáři 1:N, tím dříve narazíte na tato omezení.

Paralelní systémy souborů v Azure

Paralelní systémy souborů distribuují úložiště na úrovni bloku napříč několika síťovými uzly úložiště. Data souboru se šíří mezi tyto uzly, což znamená, že data souborů se šíří mezi více úložných zařízení. Tato distribuce sdružuje jakékoli jednotlivé požadavky na vstupně-výstupní operace napříč několika uzly úložiště, které jsou přístupné prostřednictvím společného oboru názvů.

K zajištění vysokého stupně paralelismu se používá více úložných zařízení a více cest k datům. Tento přístup snižuje počet kritických bodů způsobených přístupem pouze k jednomu uzlu najednou. Paralelní vstupně-výstupní operace ale může být obtížné koordinovat a optimalizovat, pokud pracujete přímo na úrovni rozhraní API nebo rozhraní POSIX. Díky zavedení mezilehlých vrstev přístupu k datům a koordinaci poskytují paralelní systémy souborů vývojářům aplikací rozhraní vysoké úrovně mezi aplikační vrstvou a V/V vrstvou.

Úlohy MPI (Energy Messaging Passing Interface) mají jedinečné požadavky s potřebou komunikace mezi uzly s nízkou latencí. Uzly jsou připojené prostřednictvím vysokorychlostního propojení a nejsou snadno přizpůsobitelné pro sdílení s jinými úlohami. Aplikace MPI používají celé vysoce výkonné propojení prostřednictvím Pass-Through režimu ve virtualizovaných prostředích. Úložiště pro uzly MPI je obvykle paralelní systém souborů, jako je Lustre, ke kterému se přistupuje také prostřednictvím vysokorychlostního propojení. Lustre a BeeGFS se obvykle používají ke zpracování velkých požadavků na propustnost seismického zpracování. V menším rozsahu se také používají pro simulaci nádrží.

Paralelní systémy souborů, jako je Lustre, se používají pro energetické úlohy PROSTŘEDÍ HPC, které vyžadují přístup k velkým souborům, souběžný přístup z více výpočetních uzlů a obrovské objemy dat. Implementace paralelních systémů souborů usnadňuje škálování z hlediska schopností a výkonu. Tyto systémy souborů využívají přenosy vzdáleného přímého přístupu k paměti s velkou šířkou pásma a nižším využitím procesoru. Paralelní systém souborů se často používá jako pomocné místo a je určený pro práci, která vyžaduje optimalizované vstupně-výstupní operace. Mezi příklady patří nastavení úloh, předběžné zpracování, spuštění a následné zpracování.

Orchestrovaná paralelní souborová služba, jako je Azure Managed Lustre, funguje pro 50 000 nebo více jader s rychlostí čtení a zápisu až 500 GB/s a úložištěm 2,5 PB. Další informace najdete v tématu Paralelní virtuální systémy souborů v Microsoft Azure.

Komponenty HPC

  • Azure NetApp Files a místní disky se obvykle používají ke zpracování větší latence a úloh citlivých na IOPS, jako je seismická interpretace, příprava modelu a vizualizace. Zvažte použití služby Azure NetApp Files pro úlohy s až 4 000 jádry, s propustností až 6,5 GiB/s a úlohami, které využívají nebo vyžadují víceprotokolový přístup NFS a SMB (Server Message Block) ke stejné datové sadě.

  • Spravovaný Lustre poskytuje rychlejší úložiště s vyšší kapacitou pro úlohy HPC. Toto řešení funguje pro úlohy střední až velké a podporuje 50 000 nebo více jader s propustností až 500 GB/s a kapacitou úložiště až 2,5 PiB.

  • Služba Azure Blob Storage úrovně Standard nebo Premium je nákladově efektivní, protože je to nabídka s nejnižšími náklady na cloud. Tato služba poskytuje exabajtový rozsah, vysokou propustnost, nízkou latenci podle potřeby, známé rozhraní souborového systému a přístup k více protokolům (REST, HDFS, NFS). Systém souborů NFS verze 3.0 můžete použít v koncovém bodu služby blob pro úlohy s vysokou propustností a vysokými nároky na čtení. Náklady můžete optimalizovat přechodem na chladnější úrovně úložiště. Tento přístup umožňuje správu životního cyklu na základě poslední aktualizace nebo času přístupu a inteligentního vrstvení pomocí přizpůsobitelných zásad.

  • Úlohy týkající se ropy a plynu můžou vyžadovat přenos velkých objemů dat a objemů mezi místními systémy a cloudem. Offline migrace používá služby založené na zařízeních, jako je Azure Data Box. Online migrace používá síťové služby, jako je Azure ExpressRoute.

Následující tabulka obsahuje porovnání služby Blob Storage, Azure Files, Managed Lustre a Azure NetApp Files.

Kategorie Blob Storage (úložiště typu Blob) Soubory Azure Spravovaný Lustre Azure NetApp Files
Případy použití Nejvhodnější pro úlohy sekvenčního přístupu s velkými nároky na čtení, kde se data ingestují jednou a mění se minimálně.

Nízké celkové náklady na vlastnictví, pokud dojde k lehké údržbě.

Mezi příklady scénářů patří rozsáhlá analytická data, vysoce výkonné výpočetní prostředí citlivé na propustnost, zálohování a archivace, autonomní řízení, vykreslování médií a sekvencování genomu.
Vysoce dostupná služba, která je nejvhodnější pro úlohy s náhodným přístupem.

Pro sdílené složky NFS poskytuje Azure Files úplnou podporu systému souborů POSIX. Integrovaný ovladač CSI umožňuje snadno používat ho z platforem založených na virtuálních počítačích a kontejnerových platformách, jako jsou Azure Container Instances a Azure Kubernetes Service (AKS).

Mezi příklady scénářů patří sdílené soubory, databáze, domovské adresáře, tradiční aplikace, ERP, CMS, migrace NAS, které nevyžadují pokročilou správu, a vlastní aplikace, které vyžadují úložiště souborů se škálováním na více systémů.
Managed Lustre je plně spravovaný paralelní systém souborů, který je nejvhodnější pro středně velké úlohy prostředí HPC.

Umožňuje aplikacím HPC v cloudu bez narušení kompatibility aplikací tím, že poskytuje známé funkce, chování a výkon paralelního systému souborů Lustre. Tato služba pomáhá zabezpečit dlouhodobé investice do aplikací.
Plně spravovaná souborová služba v cloudu využívající NetApp, která má pokročilé možnosti správy.

Azure NetApp Files je vhodný pro úlohy, které vyžadují náhodný přístup. Poskytuje širokou podporu protokolu a vylepšenou ochranu dat.

Mezi ukázkové scénáře patří místní podniková migrace NAS, která vyžaduje bohaté možnosti správy; úlohy citlivé na latenci, jako je SAP HANA; výpočetní úlohy náročné na latenci nebo výkon s vysokým IOPS; nebo úlohy, které vyžadují souběžný přístup k několika protokolům.
Dostupné protokoly NFS 3.0

ZBYTEK

Azure Data Lake Storage
SMB

NFS 4.1

(Žádná interoperabilita mezi protokolem)
Lesk NFS 3.0 a 4.1

SMB


Klíčové funkce Integrovaná se službou Azure HPC Cache pro úlohy s nízkou latencí

Integrovaná správa, včetně správy životního cyklu, neměnných datových objektů, zálohování dat a indexu metadat.
Zónově redundantní pro vysokou dostupnost.

Konzistentní latence v řádu milisekund.

Předvídatelný výkon a náklady, které se škálují s kapacitou.
Vysoká kapacita úložiště až 2,5 PB.

Nízká latence, přibližně 2 ms.

Vytvořte nové clustery v minutách.

Podporuje kontejnerizované úlohy pomocí AKS.
Extrémně nízká latence, stejně nízká jako submillisekunda.

Bohaté možnosti správy NETApp ONTAP, jako je SnapMirror Cloud.

Konzistentní hybridní cloudové prostředí.
Výkon (na svazek) Až 20 000 IOPS. Až 100 GiBps propustnost. Až 100 000 IOPS. Až 80 GiBps propustnost. Až 100 000 IOPS. Až 500 GiBps propustnost. Až 460 000 IOPS. Až 36 GiBps propustnost.
Škála Až 2 PiB na jeden svazek.

Až přibližně 4,75 TiB pro jeden soubor.

Žádné minimální požadavky na kapacitu.
Až 100 TiB pro jeden svazek.

Až 4 TiB pro jeden soubor.

100-GiB minimální kapacita.
Až 2,5 PiB pro jeden svazek.

Až 32 PB pro jeden soubor.

Minimální kapacita 4 TiB.
Až 100 TiB pro jeden svazek.

Až 16 TiB pro jeden soubor.

Konzistentní hybridní cloudové prostředí.
Stanovení cen Ceny za Blob Storage Ceny Azure Files Managed Lustre - cenové informace Ceny služby Azure NetApp Files

Doporučení k návrhu financí

  • Pro úložiště s vysokou propustností a nízkou latencí použijte Blob Storage úrovní Standard nebo Premium. Poskytuje následující výhody:

    • Poskytuje přístup v exabajtovém rozsahu, s vysokou propustností, nízkou latencí, známým systémem souborů a přístupem s více protokoly, včetně REST, HDFS, NFS.

    • Je nákladově efektivní.

    • Blob Storage můžete připojit jako systém souborů pomocí BlobFuse. To umožňuje scénáře, kdy více uzlů připojuje stejný kontejner jen pro čtení.

    • Podporuje systém souborů NFS 3.0 v koncovém bodu služby blob pro úlohy s vysokou propustností a vysokými nároky na čtení.

    • Náklady můžete optimalizovat přesunutím dat do chladnějších úrovní úložiště. Tato optimalizace je možná prostřednictvím správy životního cyklu, která vychází z poslední aktualizace nebo času přístupu a inteligentního vrstvení s přizpůsobitelnými zásadami.

  • Použijte Azure NetApp Files pro aplikace s možností ReadWriteMany (unikátní) nebo pro aplikace s přístupem k zápisu a čtení pouze jednou. Poskytuje následující výhody:

    • Široká škála souborových protokolů, jako jsou NFSv3, NFSv4.1 a SMB3

    • Výkon, který je srovnatelný s místním výkonem, s několika úrovněmi (Ultra, Premium, Standard)

    • Nasadí se během několika minut a poskytuje širokou škálu úrovní a flexibilitu.

    • Flexibilní typy a výkon kapacitních fondů, kdy je QoS pro svazek automaticky přiřazeno na základě úrovně fondu a kvóty svazku

Aspekty výroby

Je důležité zajistit, aby požadovaná data ve správný čas dosáhla počítačů clusteru HPC. Chcete také zajistit, aby výsledky z těchto jednotlivých počítačů byly rychle uloženy a dostupné pro další analýzu.

Distribuce zatížení provozu

Zvažte typy provozu, které prostředí HPC generuje a zpracovává. Tento krok je zvlášť důležitý, pokud plánujete spouštět více typů úloh a plánujete používat úložiště pro jiné účely. Zvažte a poznamenejte si následující typy provozu:

  • Jeden datový proud versus více datových proudů
  • Poměr provozu pro čtení k provozu pro zápis
  • Průměrné velikosti a počty souborů
  • Náhodné a sekvenční vzory přístupu

Umístění dat

Tato kategorie představuje umístění dat. Povědomí o lokalitě vám pomůže určit, jestli jako strategii přesunu dat můžete použít kopírování, ukládání do mezipaměti nebo synchronizaci. Zkontrolujte následující položky lokality předem:

  • Pokud jsou zdrojová data místní, v Azure nebo obojí
  • Pokud jsou data výsledků místní, v Azure nebo obojí
  • Pokud je potřeba HPC úlohy v Azure koordinovat s harmonogramy úprav zdrojových dat
  • Pokud jsou zahrnuta citlivá data nebo údaje zákona o přenositelnosti a odpovědnosti za zdravotní pojištění

Požadavky na výkon

Požadavky na výkon pro řešení úložiště se obvykle shrnují takto:

  • Propustnost jednostranného přenosu
  • Víceproudová propustnost
  • Očekávaný maximální počet vstupně-výstupních operací za sekundu
  • Průměrná latence

Každý faktor ovlivňuje výkon, takže tato čísla slouží jako vodítko pro očekávané výsledky konkrétního řešení. Například HPC úloha může v rámci pracovního postupu zahrnovat rozsáhlé vytváření a odstraňování souborů. Tyto operace můžou ovlivnit celkovou propustnost.

Přístupové metody

Zvažte požadovaný klientský přístupový protokol a ujasněte si, jaké funkce tohoto protokolu potřebujete. Existují různé verze systému souborů NFS a SMB.

Vezměte v úvahu následující požadavky:

  • Zda jsou vyžadovány verze SYSTÉMU SOUBORŮ NFS nebo SMB
  • Očekávané funkce protokolu, jako jsou seznamy řízení přístupu nebo šifrování
  • Řešení paralelního systému souborů

Požadavek na celkovou kapacitu

Další faktory, které je potřeba vzít v úvahu, je kapacita úložiště v Azure. Pomáhá informovat celkové náklady na řešení. Pokud plánujete uchovávat velké množství dat po dlouhou dobu, můžete zvážit vrstvení jako součást řešení úložiště. Vrstvení kombinuje možnosti úložiště s nižšími náklady s dražším, výkonnějším úložištěm v aktivní vrstvě. Vezměte v úvahu následující požadavky na kapacitu:

  • Celková požadovaná kapacita
  • Celková požadovaná kapacita horké vrstvy
  • Celková požadovaná kapacita teplé vrstvy
  • Celková požadovaná kapacita studené vrstvy

Metoda ověřování a autorizace

V případě požadavků na ověřování a autorizaci, jako je použití serveru LDAP nebo služby Windows Server Active Directory, nezapomeňte do architektury zahrnout potřebné podpůrné systémy. Pokud potřebujete podporovat funkce, jako je UID nebo GID mapování na uživatele služby Windows Server Active Directory, ověřte, že řešení úložiště tuto funkci podporuje.

Vezměte v úvahu následující požadavky na síť:

  • Místní (UID nebo GID pouze na souborových serverech)
  • Adresář (LDAP nebo Windows Server Active Directory)
  • Mapování UID nebo GID na uživatele služby Windows Server Active Directory či nikoliv

Vytvoření vlastního paralelního systému souborů

Podobně jako u systému souborů NFS můžete vytvořit systém souborů BeeGFS s více uzly nebo Lustre. Výkon těchto systémů je většinou závislý na typu virtuálních počítačů, které zvolíte. Obrázky nalezené na Azure Marketplace můžete použít pro BeeGFS nebo implementaci Lustre podle DDN s názvem Whamcloud. Pokud používáte obrázky od jiných výrobců, jako jsou BeeGFS nebo DDN, můžete si zakoupit jejich služby podpory. BeeGFS a Lustre můžete používat v rámci jejich licencí GPL bez dalších poplatků kromě nákladů na počítače a disky. Tyto nástroje lze snadno zavést pomocí skriptů Azure HPC buď s dočasnými místními disky pro dočasné úložiště, nebo s Azure Premium SSD či Azure Ultra Disk Storage pro trvalé úložiště.

Cray ClusterStor

U větších úloh je výzvou dosáhnout výkonu holého hardwaru , který mají velké výpočetní clustery s rozsáhlými prostředími Lustre. Mezi další výzvy patří dosažení vysoké propustnosti z hlediska TBps a potenciální práce s úložišti o velikosti petabajtů. Tyto úlohy teď můžete spouštět pomocí Cray ClusterStoru v řešení Azure. Tento přístup představuje čisté nasazení Lustre přímo na holém hardwaru, které je umístěno v příslušném datacentru Azure. Paralelní systémy souborů, jako jsou BeeGFS a Lustre, poskytují nejvyšší výkon díky své architektuře. Tato architektura a použití těchto technologií ale mají vysokou cenu správy.

Další kroky

Následující články obsahují pokyny, které vám pomůžou při přechodu na cloud v různých bodech.