Konfigurace a optimalizace virtuálních počítačů
Platí pro: ✔️ Virtuální počítače s Windows s Linuxem ✔️ ✔️ – Flexibilní škálovací sady Uniform Scale Sets ✔️
Tento článek obsahuje některé pokyny ke konfiguraci a optimalizaci virtuálních počítačů řady HB-series s podporou infiniBand a N-series pro prostředí HPC.
Image virtuálních počítačů
Na virtuálních počítačích s podporou InfiniBand (IB) jsou k povolení RDMA potřeba příslušné ovladače IB.
- Image virtuálních počítačů s Ubuntu-HPC na Marketplace jsou předem nakonfigurované s příslušnými ovladači NVIDIA IB a ovladači GPU.
- Image virtuálních počítačů AlmaLinux-HPC na Marketplace jsou předem nakonfigurované s příslušnými ovladači NVIDIA IB a ovladači GPU.
Tyto image virtuálních počítačů jsou založené na základních imagích virtuálních počítačů s Ubuntu a AlmaLinuxem na marketplace. Skripty používané při vytváření těchto imagí virtuálních počítačů z jejich základních imagí z marketplace jsou v úložišti azhpc-images.
Na virtuálních počítačích řady N-series s podporou GPU se navíc vyžadují příslušné ovladače GPU. Tato možnost může být k dispozici následujícími metodami:
- Použijte image virtuálních počítačů Ubuntu-HPC nebo image virtuálních počítačů AlmaLinux-HPC, které jsou předem nakonfigurované s ovladači NVIDIA GPU a výpočetním softwarovým zásobníkem GPU (CUDA, NCCL).
- Přidejte ovladače GPU prostřednictvím rozšíření virtuálních počítačů.
- Ovladače GPU nainstalujte ručně.
- Některé další image virtuálních počítačů na Marketplace jsou také předinstalované s ovladači NVIDIA GPU, včetně některých imagí virtuálních počítačů od NVIDIA.
V závislosti na potřebách distribuce a verze linuxových úloh představují image virtuálních počítačů Ubuntu-HPC a image virtuálních počítačů AlmaLinux-HPC na Marketplace nejjednodušší způsob, jak začít pracovat s úlohami HPC a AI v Azure. Doporučujeme také vytvořit vlastní image virtuálních počítačů s konkrétním přizpůsobením a konfigurací úloh pro opakované použití.
Velikosti virtuálních počítačů podporované imagemi virtuálních počítačů HPC
Podpora pro InfiniBand OFED
Nejnovější image Azure HPC Marketplace jsou součástí Mellanox OFED 5.1 a vyšší, které nepodporují karty ConnectX3-Pro InfiniBand. Karty ConnectX-3 Pro InfiniBand vyžadují verzi MOFED 4.9 LTS. Tyto image virtuálních počítačů podporují pouze connextX-5 a novější karty InfiniBand. Následující matice podpory velikosti virtuálního počítače pro InfiniBand OFED v těchto imagích virtuálních počítačů HPC:
- ŘADA HB: HB, HC, HBv2, HBv3, HBv4
- N-series: NDv2, NDv4
Podpora ovladačů GPU
V současné době jsou předem nakonfigurované jenom image virtuálních počítačů s Ubuntu-HPC a imagemi virtuálních počítačů AlmaLinux-HPC s ovladači NVIDIA GPU a výpočetním softwarovým zásobníkem GPU (CUDA, NCCL).
Matice podpory velikosti virtuálního počítače pro ovladače GPU v podporovaných imagích virtuálních počítačů HPC je následující:
- N-series: NDv2, velikosti virtuálních počítačů NDv4 jsou podporovány ovladači NVIDIA GPU a výpočetním softwarovým zásobníkem GPU (CUDA, NCCL).
- Ostatní velikosti virtuálních počítačů NC a ND v N-series jsou podporovány ovladači NVIDIA GPU.
Všechny velikosti virtuálních počítačů v N-series podporují virtuální počítače Gen 2, i když některé starší virtuální počítače podporují také virtuální počítače Gen 1. generace. Podpora Gen 2 je také označená 01 na konci URN nebo verze image.
Virtuální počítače s podporou rozhraní SR-IOV
Image virtuálních počítačů s Ubuntu-HPC
Pro virtuální počítače s podporou RDMA s podporou SR-IOV jsou vhodné image virtuálních počítačů Ubuntu-HPC verze 18.04, 20.04 a 22.04. Tyto image virtuálních počítačů jsou předem nakonfigurované pomocí ovladačů Mellanox OFED pro RDMA, ovladače NVIDIA GPU, výpočetního softwarového zásobníku GPU (CUDA, NCCL) a běžně používaných knihoven MPI a vědeckých výpočetních balíčků. Podívejte se na matici podpory velikosti virtuálního počítače.
Dostupné nebo nejnovější verze imagí virtuálních počítačů můžou být uvedené s následujícími informacemi pomocí rozhraní příkazového řádku nebo Marketplace.
"publisher": "Microsoft-DSVM", "offer": "Ubuntu-HPC",
Skripty používané při vytváření imagí virtuálních počítačů Ubuntu-HPC ze základní image Ubuntu Marketplace jsou v úložišti azhpc-images.
Image virtuálních počítačů AlmaLinux-HPC
Pro virtuální počítače s podporou RDMA s podporou SR-IOV jsou vhodné image virtuálních počítačů AlmaLinux-HPC verze 8.5, 8.6 a 8.7. Tyto image virtuálních počítačů jsou předem nakonfigurované pomocí ovladačů Mellanox OFED pro RDMA, ovladače NVIDIA GPU, výpočetního softwarového zásobníku GPU (CUDA, NCCL) a běžně používaných knihoven MPI a vědeckých výpočetních balíčků. Podívejte se na matici podpory velikosti virtuálního počítače.
Dostupné nebo nejnovější verze imagí virtuálních počítačů můžou být uvedené s následujícími informacemi pomocí rozhraní příkazového řádku nebo Marketplace.
"publisher": "AlmaLinux", "offer": "AlmaLinux-HPC",
Skripty používané při vytváření imagí virtuálních počítačů AlmaLinux-HPC ze základní image AlmaLinux Marketplace jsou v úložišti azhpc-images.
Další podrobnosti o tom, co je součástí imagí virtuálních počítačů Ubuntu-HPC a imagí virtuálních počítačů AlmaLinux-HPC, a o tom, jak je nasadit, najdete v imagích virtuálních počítačů Azure HPC.
Image virtuálních počítačů RHEL
Základní image virtuálních počítačů založených na RHEL, které nejsou založené na prostředí HPC na Marketplace, je možné nakonfigurovat pro použití na virtuálních počítačích s podporou RDMA s podporou SR-IOV. Přečtěte si další informace o povolení InfiniBand a nastavení MPI na virtuálních počítačích.
Image virtuálních počítačů s Ubuntu
Základní image virtuálních počítačů s Ubuntu Serverem 20.04 LTS a 22.04 LTS na Marketplace jsou podporované pro virtuální počítače podporující sr-IOV i jiné než SR-IOV RDMA. Přečtěte si další informace o povolení InfiniBand a nastavení MPI na virtuálních počítačích.
- Pokyny pro povolení InfiniBand na imagích virtuálních počítačů s Ubuntu najdete v článku TechCommunity.
Poznámka:
Mellanox OFED 5.1 a novější nepodporují karty ConnectX3-Pro InfiniBand na virtuálních počítačích řady SR-IOV s podporou N-series s FDR InfiniBand (např. NCv3). Na virtuálních počítačích řady N-series s kartami ConnectX3-Pro použijte LTS Mellanox OFED verze 4.9-0.1.7.0 nebo starší. Další informace naleznete v tématu Linux InfiniBand Ovladače.
Image virtuálních počítačů SUSE Linux Enterprise Server
Podporují se image SLES 12 SP3 pro HPC, SLES 12 SP3 pro HPC (Premium), SLES 12 SP1 pro HPC, SLES 12 SP1 pro HPC (Premium), SLES 12 SP4 a SLES 15 virtuálních počítačů na Marketplace. Tyto image virtuálních počítačů jsou předem načtené s ovladači Network Direct pro RDMA (na velikostech virtuálních počítačů bez SR-IOV) a Intel MPI verze 5.1. Přečtěte si další informace o nastavení MPI na virtuálních počítačích.
Optimalizace virtuálních počítačů
Následuje několik volitelných nastavení optimalizace pro zvýšení výkonu na virtuálním počítači.
Aktualizace LIS
V případě potřeby pro funkce nebo výkon je možné ovladače linuxových integračních služeb (LIS) nainstalovat nebo aktualizovat v podporovaných distribucích operačního systému, zejména se nasazuje pomocí vlastní image nebo starší verze operačního systému, jako je RHEL 6.x nebo starší verze 7.x.
wget https://aka.ms/lis
tar xzf lis
pushd LISISO
sudo ./upgrade.sh
Uvolnění paměti
Zvýšení výkonu automatickým uvolněním paměti, aby se zabránilo vzdálenému přístupu k paměti.
sudo echo 1 >/proc/sys/vm/zone_reclaim_mode
Po restartování virtuálního počítače ponechte trvalý režim uvolnění paměti:
sudo echo "vm.zone_reclaim_mode = 1" >> /etc/sysctl.conf sysctl -p
Zakázání brány firewall a SELinux
sudo systemctl stop iptables.service
sudo systemctl disable iptables.service
sudo systemctl mask firewalld
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
sudo iptables -nL
sudo sed -i -e's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
Zakázání výkonu procesoru
sudo service cpupower status
Pokud je tato možnost povolená, zakažte ji:
sudo service cpupower stop
sudo systemctl disable cpupower
Konfigurace agenta WALinuxAgent
sudo sed -i -e 's/# OS.EnableRDMA=y/OS.EnableRDMA=y/g' /etc/waagent.conf
Volitelně může být agent WALinuxAgent zakázán před spuštěním úlohy a následným povolením post-job pro maximální dostupnost prostředků virtuálního počítače pro úlohu PROSTŘEDÍ HPC.
Další kroky
- Přečtěte si další informace o povolení infiniBand na virtuálních počítačích řady HB-series s podporou infiniBand a N-series.
- Přečtěte si další informace o instalaci a spouštění různých podporovaných knihoven MPI na virtuálních počítačích.
- Projděte si přehled řady HBv3 a přehled řady HC-series.
- Přečtěte si o nejnovějších oznámeních, příkladech úloh PROSTŘEDÍ HPC a výsledcích výkonu na blogech technické komunity Azure Compute.
- Přehled architektury vyšší úrovně spouštění úloh PROSTŘEDÍ HPC najdete v tématu Vysokovýkonné výpočetní prostředí (HPC) v Azure.