Image virtuálních počítačů Azure HPC
Platí pro: ✔️ Flexibilní škálovací sady virtuálních ✔️ počítačů s Linuxem – Jednotné škálovací sady ✔️
Tento článek obsahuje některé informace o imagích virtuálních počítačů HPC, které se mají použít ke spuštění virtuálních počítačů řady H-series s podporou technologie InfiniBand a virtuálních počítačů řady N-series s podporou GPU.
Tým Azure HPC nabízí optimalizované a předem nakonfigurované image virtuálních počítačů s Linuxem pro úlohy HPC a AI. Tyto image virtuálních počítačů jsou:
- Na základě upstreamových imagí virtuálních počítačů s Ubuntu a AlmaLinux na marketplace
- Předem nakonfigurovaný ovladač NVIDIA Mellanox OFED pro infiniBand, ovladače NVIDIA GPU, oblíbené knihovny MPI, knihovny HPC vyladěné dodavatelem a doporučené optimalizace výkonu.
- Včetně optimalizací a doporučených konfigurací pro zajištění optimálního výkonu, konzistence a spolehlivosti.
Dostupnost v Azure
Image prostředí HPC můžete použít při vytváření virtuálního počítače z Azure Marketplace nebo Azure CLI. Další metody nasazení najdete v části Nasazení imagí virtuálních počítačů HPC.
Azure Marketplace
Vyhledejte Ubuntu HPC
vydavatele Microsoft-DSVM
nebo AlmaLinux HPC
vydavatele AlmaLinux
.
Azure CLI
Spuštěním následujících příkazů vyhledejte adresy URL obrázků prostředí HPC:
Ubuntu-HPC
az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all
Všechny image podporují virtuální počítače Gen2.
AlmaLinux-HPC
az vm image list --publisher almalinux --offer almalinux-hpc --output table --all
Všechny image podporují virtuální počítače Gen 1 i Gen2.
Podporované velikosti virtuálních počítačů
Image virtuálních počítačů HPC podporují následující velikosti virtuálních počítačů:
- Standard_HB60rs
- Standard_HB120rs_v2
- Standard_HB120rs_v3
- Standard_HB120rs_v4
- Standard_HC44rs
- Standard_ND40rs_v2
- Standard_ND96asr_v4
- Standard_ND96amsr_A100_v4
- Standard_ND96isr_H100_v5
Informace o velikosti virtuálních počítačů Azure najdete v nejnovější matici podpory velikosti virtuálních počítačů řady H-a N-series.
Nainstalované softwarové balíčky
- Mellanox OFED 24.01-0.3.3.1
- Předem nakonfigurovaný IPoIB (IP-over-InfiniBand)
- Oblíbené knihovny MPI založené na infiniBand
- HPC-X v2.18 s/bez PMIx-4
- Intel MPI 2021.12.0
- MVAPICH2 2.3.7-1
- OpenMPI 5.0.2 s PMIx-4
- Komunikační moduly runtime
- Libfabric
- OpenUCX
- NCCL 2.21.5-1
- Modul plug-in NCCL RDMA Sharp
- Optimalizované knihovny
- AMD Optimalizace C/C++ a fortran kompilátorů 4.0.0-1
- Intel MKL 2024.0.0.49673
- Ovladače GPU
- Ovladač NVIDIA GPU 535.161.08
- Paměť NVIDIA Peer (GPU Direct RDMA)
- NVIDIA Fabric Manager
- CUDA 12.4
- GDRCopy 2.3
- Data Center GPU Manager 3.3.3
- Nástroj pro diagnostiku prostředí Azure HPC
- Přizpůsobení na základě skladové položky
- Soubory topologie
- Konfigurace seznamu NCCL
- Moby 24.0.7-ubuntu22.04u1
- Kontejner NVIDIA Docker 24.0.7-1
- Spravovaná Lustre Azure 2.15.4-42-gd6d405d
- Moneo v0.3.5
- Kontroly stavu Azure HPC v0.4.2
Nainstalovaný index verze v rámci image virtuálního počítače se nachází v tomto umístění: /opt/azurehpc/component_versions.txt
.
Knihovny MPI a softwarové balíčky jsou k dispozici jako moduly prostředí. Pokud chcete načíst knihovnu nebo balíček MPI, spusťte:
module load mpi/<mpi-library-name>
module load <package-name>
Konfigurace a optimalizace
Nejnovější podrobnosti o tom, jaké balíčky a konfigurace jsou součástí jednotlivých imagí virtuálních počítačů, najdete v úložišti azhpc-images na GitHubu. Zahrnuté konfigurace jsou založené na doporučeních pro optimalizaci od dodavatelů a partnerů a také na základě běžného prostředí HPC a postupů používání v tradičních systémech HPC.
Agent Azure Linux (WAAgent)
- Omezte využití prostředků procesoru a paměti agenta waagentu (agenta virtuálního počítače spuštěného na každém virtuálním počítači Azure s Linuxem).
- Volitelně zvažte zakázání waagentu na začátku skriptu úlohy a jeho povolení zpět na konci pro úlohy citlivé na procesor následujícím způsobem:
sudo systemctl stop waagent <HPC job> sudo systemctl restart waagent
Vyšší limity paměti
- Nastavení maximálního limitu uzamčené paměti na neomezenou dobu
- Nastavení počtu otevřených souborů na 65535
Režim uvolnění zóny
- Nastavení zone_reclaim_mode na 1
Zakázání démona brány firewall, který pomáhá spouštěčům úloh MPI
Nasazení imagí virtuálních počítačů HPC
Jak je znázorněno, image virtuálních počítačů HPC jsou dostupné z Azure Marketplace a Azure CLI. Dají se nasadit prostřednictvím různých vozidel nasazení v Azure (Azure CycleCloud, Azure Batch, šablony ARM atd.). Skripty AzureHPC poskytují snadný způsob, jak pomocí těchto imagí rychle nasadit cluster PROSTŘEDÍ HPC.