Nastavení InfiniBandu
Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a odpovídajícím způsobem naplánujte. Další informace najdete v doprovodných materiálech CentOS End Of Life.
Platí pro: ✔️ Virtuální počítače s Windows s Linuxem ✔️ ✔️ – Flexibilní škálovací sady Uniform Scale Sets ✔️
Tip
Vyzkoušejte nástroj pro selektor virtuálních počítačů a vyhledejte další velikosti, které nejlépe vyhovují vaší úloze.
Tento článek obsahuje některé informace o instancích podporujících RDMA, které se použijí přes síť InfiniBand (IB). Architektura sítě InfiniBand obsahuje kompletní návrh stromového stromu (což je síťová topologie, která poskytuje vysokou šířku pásma a nízkou latenci), zajišťuje neblokující, bisekční symetrii. Tato konfigurace poskytuje stejnou šířku pásma mezi všemi dvěma virtuálními počítači v rámci stejné škálovací sady virtuálních počítačů (VMSS).
Instance s podporou RDMA
Většina velikostí virtuálních počítačů HPC obsahuje síťové rozhraní pro připojení vzdáleného přímého přístupu do paměti (RDMA). Vybrané velikosti N-series určené pro RDMA jsou také schopné RDMA. Toto rozhraní je kromě standardního síťového rozhraní Azure Ethernet dostupného v ostatních velikostech virtuálních počítačů.
Toto sekundární rozhraní umožňuje instancím podporujícím RDMA komunikovat přes síť InfiniBand, pracovat s HDR rychlostí pro HBv4, HBv3, HBv2, EDR frekvence pro HB, HC, HX, NDv2 a FDR pro H16r, H16mr a další virtuální počítače řady RDMA. Tyto funkce RDMA můžou zvýšit škálovatelnost a výkon aplikací založených na rozhraní MPI (Message Passing Interface).
Poznámka:
Podpora SR-IOV: V Azure HPC jsou v současné době k dispozici dvě třídy virtuálních počítačů v závislosti na tom, jestli jsou pro InfiniBand povolené rozhraní SR-IOV. V současné době jsou téměř všechny novější virtuální počítače s podporou RDMA nebo InfiniBand v Azure povolené s výjimkou H16r, H16mr a NC24r. RDMA je povolený jenom přes síť InfiniBand a podporuje se pro všechny virtuální počítače s podporou RDMA. IP adresa přes IB se podporuje jenom na virtuálních počítačích s podporou SR-IOV. Přímý přístup do paměti (RDMA) není povolený přes ethernetovou síť.
Operační systém – linuxové distribuce, jako jsou CentOS, RHEL, AlmaLinux, Ubuntu, SUSE, se běžně používají. Windows Server 2016 a novější verze jsou podporované na všech virtuálních počítačích řady HPC. Mějte na paměti, že Windows Server 2012 R2 není na HBv2 podporovaný jako velikosti virtuálních počítačů s více než 64 (virtuálními nebo fyzickými) jádry. Seznam podporovaných imagí virtuálních počítačů s Linuxem na Azure Marketplace a jejich správné konfiguraci najdete v imagích virtuálních počítačů. Příslušné stránky velikosti virtuálních počítačů také uvádějí podporu softwarového zásobníku.
InfiniBand a ovladače – Na virtuálních počítačích s podporou InfiniBand jsou k povolení RDMA potřeba příslušné ovladače. Informace o rozšířeních virtuálních počítačů nebo ruční instalaci ovladačů InfiniBand najdete v tématu povolení InfiniBand .
MPI – Velikosti virtuálních počítačů s podporou SR-IOV v Azure umožňují téměř jakoukoli variantu MPI používat s Mellanox OFED. Další podrobnosti o nastavení MPI na virtuálních počítačích HPC v Azure najdete v tématu Nastavení MPI pro PROSTŘEDÍ HPC .
Poznámka:
Adresní prostor sítě RDMA: Síť RDMA v Azure si vyhrazuje adresní prostor 172.16.0.0/16. Pokud chcete spouštět aplikace MPI na instancích nasazených ve virtuální síti Azure, ujistěte se, že adresní prostor virtuální sítě nepřekrývá síť RDMA.
Možnosti konfigurace clusteru
Azure nabízí několik možností pro vytváření clusterů virtuálních počítačů HPC, které můžou komunikovat pomocí sítě RDMA, včetně:
Virtuální počítače – Nasaďte virtuální počítače s podporou RDMA ve stejné škálovací sadě nebo skupině dostupnosti (při použití modelu nasazení Azure Resource Manager). Pokud používáte model nasazení Classic, nasaďte virtuální počítače ve stejné cloudové službě.
Škálovací sady virtuálních počítačů – Ve škálovací sadě virtuálních počítačů zajistěte, abyste nasazení omezili na jednu skupinu umístění pro komunikaci InfiniBand ve škálovací sadě. Například v šabloně Resource Manageru
singlePlacementGroup
nastavte vlastnost natrue
.
Všimněte si, že maximální velikost škálovací sady, se kterou je možné spustit, singlePlacementGroup=true
je ve výchozím nastavení omezena na 100 virtuálních počítačů. Pokud jsou vaše potřeby škálování úloh HPC vyšší než 100 virtuálních počítačů v jednom tenantovi, můžete požádat o navýšení a bez poplatků otevřít online žádost o zákaznickou podporu. Limit počtu virtuálních počítačů v jedné škálovací sadě je možné zvýšit na 300. Všimněte si, že při nasazování virtuálních počítačů pomocí skupin dostupnosti je maximální limit 200 virtuálních počítačů na každou sadu dostupnosti.
Služba VMSS také slouží jako hranice izolace mezi úlohami v rámci stejného clusteru a zajišťuje, aby instance v různých sadách VMSS zůstaly izolované, aby se zajistilo zabezpečení.
Poznámka:
MPI mezi virtuálními počítači: Pokud se mezi virtuálními počítači vyžaduje RDMA (např. použití komunikace MPI), ujistěte se, že jsou virtuální počítače ve stejné škálovací sadě virtuálních počítačů nebo ve skupině dostupnosti.
Azure CycleCloud – Vytvoření clusteru PROSTŘEDÍ HPC pomocí Azure CycleCloudu ke spouštění úloh MPI
Azure Batch – Vytvořte fond Azure Batch pro spouštění úloh MPI. Pokud chcete při spouštění aplikací MPI se službou Azure Batch používat výpočetní instance, přečtěte si téma Použití úloh s více instancemi ke spouštění aplikací MPI (Message Passing Interface) ve službě Azure Batch.
Microsoft HPC Pack HPC Pack - zahrnuje běhové prostředí pro MS-MPI, které používá síť Azure RDMA při nasazení na virtuální počítače s Linuxem s podporou RDMA. Například nasazení najdete v tématu Nastavení clusteru RDMA s Linuxem pomocí sady HPC Pack pro spouštění aplikací MPI.
Aspekty nasazení
Předplatné Azure – Pokud chcete nasadit více než několik instancí náročných na výpočetní výkon, zvažte předplatné s průběžným platbami nebo jiné možnosti nákupu. Pokud používáte bezplatný účet Azure, můžete použít pouze omezený počet výpočetních jader Azure.
Ceny a dostupnost – Zkontrolujte ceny a dostupnost virtuálních počítačů podle oblastí Azure.
Kvóta jader – Možná budete muset zvýšit kvótu jader ve vašem předplatném Azure z výchozí hodnoty. Vaše předplatné může také omezit počet jader, která můžete nasadit v určitých rodinách velikostí virtuálních počítačů, včetně řady H-series. Chcete-li požádat o zvýšení kvóty, otevřete bezplatnou online žádost o zákaznickou podporu. (Výchozí limity se můžou lišit v závislosti na vaší kategorii předplatného.)
Poznámka:
Pokud potřebujete velkou kapacitu, obraťte se na podporu Azure. Kvóty Azure jsou limity kreditů, nikoli záruky kapacity. Bez ohledu na kvótu se vám účtují jenom jádra, která používáte.
Virtuální síť – Virtuální síť Azure není nutná k používání instancí náročných na výpočetní výkon. Pro mnoho nasazení ale potřebujete alespoň cloudovou virtuální síť Azure nebo připojení typu site-to-site, pokud potřebujete přístup k místním prostředkům. V případě potřeby vytvořte novou virtuální síť pro nasazení instancí. Přidání virtuálních počítačů náročných na výpočetní prostředky do virtuální sítě ve skupině vztahů se nepodporuje.
Změna velikosti – vzhledem k jejich specializovanému hardwaru můžete měnit velikost pouze instancí náročných na výpočetní výkon ve stejné řadě velikostí (řady H nebo N-series). Velikost virtuálního počítače řady H-series můžete například změnit jenom z jedné velikosti řady H-series na jiný. U některých virtuálních počítačů možná bude potřeba zvážit další aspekty podpory ovladačů InfiniBand a disků NVMe.
Další kroky
- Přečtěte si další informace o konfiguraci virtuálních počítačů, povolení InfiniBand, nastavení MPI a optimalizace aplikací HPC pro Azure v úlohách HPC.
- Projděte si přehled řady HBv3 a přehled řady HC-series.
- Přečtěte si o nejnovějších oznámeních, příkladech úloh PROSTŘEDÍ HPC a výsledcích výkonu na blogech technické komunity Azure Compute.
- Přehled architektury vyšší úrovně spouštění úloh PROSTŘEDÍ HPC najdete v tématu Vysokovýkonné výpočetní prostředí (HPC) v Azure.