Delen via


Azure HPC VM-installatiekopieën

Van toepassing op: ✔️ Flexibele schaalsets ✔️ voor Linux-VM's ✔️ Uniform-schaalsets

In dit artikel vindt u informatie over HPC VM-installatiekopieën die moeten worden gebruikt voor het starten van vm's uit de H-serie met InfiniBand- en GPU-vm's uit de N-serie.

Het Azure HPC-team biedt geoptimaliseerde en vooraf geconfigureerde Linux-VM-installatiekopieën voor HPC- en AI-workloads. Deze VM-installatiekopieën zijn:

  • Op basis van upstream Ubuntu en AlmaLinux marketplace VM-installatiekopieën.
  • Vooraf geconfigureerd met NVIDIA Mellanox OFED-stuurprogramma voor InfiniBand, NVIDIA GPU-stuurprogramma's, populaire MPI-bibliotheken, door de leverancier afgestemde HPC-bibliotheken en aanbevolen prestatieoptimalisaties.
  • Inclusief optimalisaties en aanbevolen configuraties om optimale prestaties, consistentie en betrouwbaarheid te leveren.

Beschikbaarheid in Azure

U kunt de HPC-installatiekopieën gebruiken bij het maken van een VIRTUELE machine vanuit Azure Marketplace of Azure CLI. Raadpleeg de sectie over het implementeren van HPC VM-installatiekopieën voor andere implementatiemethoden.

Azure Marketplace

Ubuntu HPC Zoek naar de uitgever Microsoft-DSVMof AlmaLinux HPC door de uitgeverAlmaLinux.

Azure-CLI

Voer de volgende opdrachten uit om afbeeldings-URL's van de HPC-installatiekopieën te vinden:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Alle installatiekopieën ondersteunen GEN 2-VM's.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Alle installatiekopieën ondersteunen zowel gen 1- als gen 2-VM's.

Ondersteunde VM-grootten

De HPC VM-installatiekopieën ondersteunen de volgende VM-grootten:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Raadpleeg Azure VM-grootten voor de meest recente ondersteuningsmatrix voor VM-grootten uit de H- en N-serie.

Geïnstalleerde softwarepakketten

  • Mellanox OFED 24.01-0.3.3.1
  • Vooraf geconfigureerde IPoIB (IP-over-InfiniBand)
  • Populaire MPI-bibliotheken op basis van InfiniBand
    • HPC-X v2.18 met/zonder PMIx-4
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 met PMIx-4
  • Communicatieruntimes
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • NCCL RDMA Sharp Plugin
  • Geoptimaliseerde bibliotheken
    • AMD C/C++ en Fortran Compilers 4.0.0-1 optimaliseren
    • Intel MKL 2024.0.0.49673
  • GPU-stuurprogramma's
    • NVIDIA GPU-stuurprogramma 535.161.08
    • NVIDIA Peer Memory (GPU Direct RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • Data Center GPU Manager 3.3.3
  • Diagnostisch hulpprogramma voor Azure HPC
  • Aanpassingen op basis van SKU
    • Topologiebestanden
    • NCCL-configuratie
  • Moby 24.0.7-ubuntu22.04u1
  • NVIDIA Docker-container 24.0.7-1
  • Azure Managed Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Azure HPC Health Checks v0.4.2

Een geïnstalleerde versie-index binnen de VM-installatiekopieën bevindt zich op deze locatie: /opt/azurehpc/component_versions.txt.

MPI-bibliotheken en softwarepakketten zijn beschikbaar als omgevingsmodules. Voer de volgende opdracht uit om een MPI-bibliotheek/-pakket te laden:

module load mpi/<mpi-library-name>
module load <package-name>

Configuratie en optimalisatie

Raadpleeg de opslagplaats azhpc-images op GitHub voor de meest recente informatie over welke pakketten en configuratie is opgenomen in elke VM-installatiekopieën. De inbegrepen configuraties zijn gebaseerd op optimalisatieaanvelingen van leveranciers en partners, evenals op basis van algemene HPC-workloads en gebruiksprocedures in traditionele HPC-systemen.

  • Azure Linux Agent (WAAgent)

    • Beperk het gebruik van CPU-/geheugenbronnen van waagent (VM-agent die wordt uitgevoerd op elke Azure Linux-VM).
    • U kunt eventueel waagent uitschakelen aan het begin van uw taakscript en deze als volgt weer inschakelen voor CPU-gevoelige werkbelastingen:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Hogere geheugenlimieten

    • Maximale limiet voor vergrendeld geheugen instellen op onbeperkt
    • Aantal geopende bestanden instellen op 65535
  • Modus Zone vrijmaken

    • Zone_reclaim_mode instellen op 1
  • Firewall-daemon uitschakelen om MPI-taakstarters te helpen

HPC VM-installatiekopieën implementeren

Zoals weergegeven, zijn de HPC VM-installatiekopieën beschikbaar via Azure Marketplace en Azure CLI. Ze kunnen worden geïmplementeerd via verschillende implementatievoertuigen in Azure (Azure CycleCloud, Azure Batch, ARM-sjablonen, enzovoort). AzureHPC-scripts bieden een eenvoudige manier om snel een HPC-cluster te implementeren met behulp van deze installatiekopieën.