Dobře navržená architektura Azure pro PROSTŘEDÍ HPC

Článek
04/05/2024

Plán pro vysokovýkonné výpočetní prostředí Azure (HPC) popisuje proces racionalizace vašeho scénáře, stanovení priorit technického úsilí a identifikaci úloh. U mnoha úloh je důležité dodržovat sadu principů architektury. Tyto principy pomáhají při vývoji a optimalizaci úloh. Pět architekturových konstrukcí jsou podrobně popsány v architektuře Azure Well-Architected Framework. V těchto doprovodných materiálech najdete souhrn toho, jak tyto principy použít při správě datových úloh.

Spolehlivost

Všechno má potenciál zlomit. Datové kanály nejsou výjimkou. Skvělé architektury jsou navrženy s ohledem na dostupnost a odolnost. Klíčové aspekty jsou, jak rychle můžete detekovat změny a jak rychle můžete pokračovat v operacích.

Vaše datové prostředí by mělo zvážit odolné architektury, redundance napříč oblastmi, úroveň služeb, smlouvy o úrovni služeb (SLA) a kritickou podporu. Stávající prostředí by také mělo zahrnovat auditování, monitorování a upozorňování pomocí integrovaného monitorování a architektury oznámení.

Nad těmito kontrolami životního prostředí by tým úloh měl zvážit:

Provádění dalších úprav architektury za účelem zlepšení smluv SLA na úrovni služeb
Nastavení redundantní architektury specifické pro úlohy
Vytváření procesů monitorování a oznámení nad rámec toho, co týmy pro provoz cloudu poskytují.

Hybridní připojení ExpressRoute

K podpoře důležitých úloh PROSTŘEDÍ HPC použijte konfiguraci vysoké dostupnosti Azure ExpressRoute. I v jedné lokalitě je nastavení vysoké dostupnosti, kde můžete mít redundantní připojení ExpressRoute, nechrání vás před výpadky jedné hraniční lokality. Když povolíte dvě připojení na dvou zařízeních, umožní redundance vaší firmě pokračovat, pokud dojde k havárii v primární lokalitě. Pomocí vysoké dostupnosti ExpressRoute můžete zajistit připojení k Azure, pokud dojde k výpadku ExpressRoute v jedné oblasti.

Doporučení

Pro zajištění maximální redundance povolte dva okruhy ExpressRoute ve dvou různých umístěních hraničních lokalit ExpressRoute.
- Toto nastavení vyžaduje, abyste na webu Azure Portal vytvořili dva okruhy ExpressRoute pro dvě různá umístění hraničních lokalit ExpressRoute. Pak oba okruhy ExpressRoute připojíte ke stejné virtuální síti rozbočovače v Azure.
- Umístěte dvě hraniční lokality do stejné oblasti Azure. Je to, co poskytuje redundanci v případě selhání jednoho z umístění partnerského vztahu. Obě připojení ExpressRoute se ukončí do stejné virtuální sítě v Azure. Prohlédněte si seznam umístění ExpressRoute a partnerů připojení k plánování umístění partnerského vztahu ExpressRoute.
- Spolupracujte s poskytovatelem a nakonfigurujte druhou lokalitu ExpressRoute.
- Ujistěte se, že druhé připojení funguje, a to převzetím služeb při selhání do druhého umístění, což je důležité. Proveďte pravidelné postupy, abyste zajistili připojení.

Další informace o maximální odolnosti konfigurace ExpressRoute najdete v tématu Návrh pro zotavení po havárii pomocí ExpressRoute.

Zabezpečení

Využijte zásady zabezpečení ve vašem prostředí PROSTŘEDÍ HPC, abyste zajistili ochranu před úmyslnými útoky a zneužitím cenných dat a systémů. Podívejte se na zabezpečení imagí operačního systému uživatelů a přístupu uživatelů a postupujte podle pokynů k zabezpečení služby Azure Batch a Azure CycleCloud. Další informace najdete v tématu Principy pilíře zabezpečení.

Image operačního systému

Azure Marketplace poskytuje image prostředí HPC založené na Linuxu pro použití v clusteru. Tyto image obsahují mnoho oblíbených knihoven, softwarových balíčků a diagnostických nástrojů, jako jsou:

Knihovny rozhraní MPI (Message Passing Interface) založené na infiniBandu
Mellanox OFED.
Předkonfigurovaná IP adresa přes InfiniBand.
Komunikační moduly runtime.
Knihovny optimalizované pro Intel/AMD.
Diagnostické nástroje Azure HPC

Můžete začít s imagemi a pak použít zásady zabezpečení vaší organizace k posílení imagí softwaru před ohroženími zabezpečení a kybernetickými hrozbami. Po ověření můžete novou image uložit v Galerii výpočetních prostředků Azure. Image pak můžete použít k vytvoření virtuálních počítačů v Azure CycleCloudu, Azure HPC a Batch.

Přístup uživatelů

Definujte jasné řádky odpovědnosti a oddělení povinností pro každou funkci.
Omezte přístup na základě zásad zabezpečení s minimálními oprávněními a potřebami.
Přiřaďte oprávnění uživatelům, skupinám a aplikacím v určitém rozsahu prostřednictvím řízení přístupu na základě role v Azure. Pokud je to možné, použijte předdefinované role.
Zabránění odstranění nebo úpravám prostředku, skupiny prostředků nebo předplatného prostřednictvím zámků správy
Použití spravovaných identit pro přístup k prostředkům v Azure
Podpora jednoho podnikového adresáře Udržujte cloud a místní adresáře synchronizované s výjimkou účtů s kritickým dopadem.
Nastavte podmíněný přístup Microsoft Entra. Vynucování a měření klíčových atributů zabezpečení při ověřování všech uživatelů, zejména u účtů s kritickým dopadem.
Používejte metody bez hesla nebo se můžete rozhodnout pro moderní metody hesel.
Blokovat starší protokoly a metody ověřování

Zabezpečení služby Azure Batch

Pokud chcete povolit zabezpečení služby Batch, postupujte podle osvědčených postupů.

Zabezpečení Azure CycleCloudu

Pokud chcete povolit zabezpečení pro Azure CycleCloud, postupujte podle osvědčených postupů.

Optimalizace nákladů

Pokud chcete, aby vaše prostředí v Azure co nejlépe fungovalo, upřednostněte řízení nákladů a počáteční plánování. Správa nákladů a plánování jsou obvykle nejdůležitějšími aspekty úspěšné migrace do cloudu v organizaci. Microsoft Cost Management poskytuje nástroje pro plánování, analýzu a snížení útraty za účelem maximalizace investic do cloudu. Další informace o způsobech plánování a optimalizace nákladů na cloud najdete v tématu Osvědčené postupy fakturace služby Cost Management. Následující aspekty jsou některé z nejdůležitějších aspektů optimalizace nákladů.

Volba operačního systému

Linux je dominantní operační systém pro úlohy prostředí HPC. Linux je opensourcový a vyladěný tak, aby využíval infrastrukturu prostředí HPC. Takže knihovny MPI a ovladače Infiniband fungují dobře v Linuxu a windows. Díky použití virtuálních počítačů s Linuxem a Windows k nastavení clusteru PROSTŘEDÍ HPC může určitě ušetřit náklady. Někteří uživatelé ale můžou mít silnou předvolbu pro prostředí Windows, zejména při provádění úloh předběžného zpracování a následného zpracování v úlohách, jako je výpočetní dynamika tekutin. V tomto případě doporučujeme, aby front-end windows odesíllejte úlohy hostiteli s Linuxem, hlavnímu uzlu, který používá výpočetní uzly pro simulace.

Automatické škálování

Automatické škálování umožňuje nastavit a používat virtuální počítače jenom v případech, kdy odesíláte úlohu nebo když je úloha aktivní. Po dokončení úlohy se uzly automaticky vypnou. Pomocí automatického škálování upravíte výpočetní prostředky používané vaší aplikací, což může ušetřit čas a peníze. Azure CycleCloud má ve výchozím nastavení zapnuté automatické škálování ve svých plánovačích. Výchozí časový limit pro vypnutí uzlů je 15 minut. Časový limit můžete přizpůsobit. Časový limit pomáhá zajistit, aby uživatelé platili jenom za to, co používají. Batch poskytuje mechanismus pro integraci vzorce automatického škálování s výběrem parametrů. Další informace najdete v tématu Začínáme s automatickým škálováním v Azure.

Průběžné platby oproti rezervovaným instancím a spotovým instancím

Azure nabízí různé cenové možnosti, průběžné platby, rezervovanou instanci s možnostmi 1 nebo tři roky a spotové instance, které podléhají kapacitě dostupné v datacentru. Instance s průběžným platbami jsou nákladově efektivní, protože zajišťují občasnou poptávku po kapacitě. Rezervované instance můžou být nákladově efektivní, pokud existuje nepřetržitá poptávka po prostředí HPC nebo existuje mnoho aplikací, které běží v Azure HPC. Oba jsou vhodné pro úlohy připravené pro produkční prostředí. Spotové instance jsou vhodné pro krátké testování a experimentování nebo pokud vaše aplikace potřebuje kontrolní body, například genomiky. Spotové instance podléhají kapacitě dostupné v datovém centru. Ceny závisí na těchto faktorech. Spotové instance můžete vyřadit s minimálním upozorněním.

Klasifikace dat

Úlohy PROSTŘEDÍ HPC využívají úložiště s vysokou propustností. Můžete například použít Azure Managed Lustre, Azure Net App Files nebo BeeGFS Parallel File System. Tyto služby úložiště poskytují výkon, ale můžou to být nákladné. Data je důležité předem klasifikovat, aby se v těchto systémech nacházejí pouze data specifická pro aplikaci. Všechna ostatní data se můžou nacházet v nízkonákladových řešeních úložiště, jako je Azure Data Lake Storage nebo Azure Blob Storage.

Navíc může být užitečné nastavit systémy úložiště PROSTŘEDÍ HPC na vyžádání, aby se data synchronizovala se službou nízkonákladového úložiště, jako je blob Storage. Úložiště na vyžádání pomáhá zajistit, aby se data uchována ve službě Blob Storage, když je vypnutý vysoce výkonný systém úložiště. Spravované Lustre a Net App Files nabízejí synchronizační službu.

Nastavení rozpočtů

Azure CycleCloud umožňuje nastavit rozpočty na cluster a posílat příjemcům oznámení, pokud se blíží vyčerpání rozpočtů. Pro Službu Batch můžete vytvářet rozpočty a upozornění útraty pro fondy Batch nebo účty Batch z webu Azure Portal. Rozpočty a upozornění jsou užitečné pro upozorňování zúčastněných stran na případná rizika přetížení, i když je možné, že upozornění útraty budou zpožděná a mírně překročí rozpočet.

Provozní dokonalost

Když necháte aplikace PROSTŘEDÍ HPC spuštěné v produkčním prostředí, musí být nasazení spolehlivá a předvídatelná. Spolehlivá a předvídatelná nasazení se skládají z automatizace úloh PROSTŘEDÍ HPC s řešeními infrastruktury jako kódu (IaC). K analýze a monitorování úloh prostředí HPC musíte také provádět kontroly stavu uzlů.

Další informace o návrzích nasazení najdete v tématu Doporučení pro použití infrastruktury jako kódu. Další informace o návrzích monitorování najdete v tématu Doporučení pro návrh a vytvoření monitorovacího systému.

Infrastruktura jako kód

Prostředí HPC v Azure nasazuje několik prostředků, jako je Azure CycleCloud, cluster HPC, úložiště, uzly vizualizace, licenční servery atd. K automatizaci nasazení doporučujeme použít standardní nástroje, jako je Terraform, Ansible a Packer, abyste proces zjednodušili.

Kontrola stavu uzlu

Azure Managed Grafana je plně spravovaná služba pro řešení analýzy a monitorování. Grafana Labs podporuje Grafana a poskytuje rozšiřitelné vizualizace dat. Toto řešení můžete integrovat do úloh PROSTŘEDÍ HPC jako příklad. Další informace najdete na platformě Azure HPC OnDemand.

Efektivita výkonu

Ujistěte se, že vaše prostředí HPC dokáže efektivně škálovat, aby splňovalo požadavky, které na něj uživatelé umístili. Vyberte si správnou platformu pro aplikace PROSTŘEDÍ HPC na základě doporučení dodavatelů aplikací. Pokud potřebujete další infrastrukturu pro splnění poptávky, investujte do plánování kapacity. Monitorujte výkon infrastruktury prostředí HPC, když uživatelé používají váš systém.

Další informace najdete v článcích o efektivitě výkonu.

Volba správné platformy pro aplikaci HPC

Azure nabízí řadu platforem pro virtuální počítače založené na procesorech Intel, AMD cpu a NVIDIA a AMD GPU. I když je většina aplikací kompatibilní s dostupnými funkcemi, některé z nich využívají jenom určitý typ procesoru nebo GPU. Než nasadíte infrastrukturu do cloudu, je důležité, abyste měli doporučení od dodavatele aplikace (ISV), abyste porozuměli následujícím potřebám.

Pokud je aplikace vázána na paměť, vázáno na procesor nebo gpu vázáno
Pokud mají nějaké doporučení týkající se jakéhokoli typu architektury procesoru nebo GPU pro výkon
Pokud existuje typ MPI a jeho verze, na kterou může jejich aplikace těžit
Pokud existuje doporučení pro typ plánovače
Pokud se doporučuje vstupně-výstupní operace za sekundu nebo propustnost z paralelních systémů souborů.

Investice do plánování kapacity

Na základě typu aplikace a jejích licenčních podmínek zkontrolujte, jestli je licence nastavená tak, aby používala určitý počet jader. Vyhodnoťte investice, abyste licenci umožnili, aby vyhovovala prostředí HPC, a pak odpovídajícím způsobem naplánujte kapacitu.

Monitorování výkonu infrastruktury

Je důležité mít možnost sledovat způsob, jakým uživatelé používají váš systém, sledovat využití prostředků a obecně monitorovat stav a výkon systému. Tyto informace můžete použít jako diagnostickou pomůcku k detekci a opravám problémů a pomoct odhalit potenciální problémy a zabránit jejich výskytu. Přehled komponent a služeb Azure dostupných pro monitorování prostředků najdete v přehledu služby Azure Monitor.
Monitorování je skvělý nástroj, který umožňuje zjistit, jestli v instancích a úložišti virtuálních počítačů existují nějaké kritické body.
Omezování úložiště může způsobit, že se aplikace podstatně zpomalí a ovlivní výkon. K omezování dochází, když vstupní a výstupní operace v úložišti překročí nastavené limity propustnosti. Služby Azure Storage nabízejí grafy operací čtení a zápisu, které monitorují, jestli nedochází k problémům s omezováním.
Azure CycleCloud se integruje se službami Azure, jako jsou Monitor a nástroje Microsoft Cost Management. Podporuje také monitorování externích služeb prostřednictvím své připojitelné architektury. Další informace najdete v tématu Monitorování.
Pokud používáte Batch, je Batch Explorer bezplatný samostatný klientský nástroj, který vám pomůže vytvářet, ladit a monitorovat aplikace Batch.

Další kroky

Úvod do architektur pro prostředí HPC

Sdílet prostřednictvím