Använda RDMA- eller GPU-instanser i Batch-pooler
Om du vill köra vissa Batch-jobb kan du dra nytta av storlekar på virtuella Azure-datorer som är utformade för storskalig beräkning. Till exempel:
Om du vill köra MPI-arbetsbelastningar för flera instanser väljer du HB-, HC-, NC- eller ND-serien eller andra storlekar som har ett nätverksgränssnitt för Fjärrdirigeringsåtkomst (RDMA). Dessa storlekar ansluter till ett InfiniBand-nätverk för kommunikation mellan noder, vilket kan påskynda MPI-program.
För CUDA-program väljer du N-seriens storlekar som innehåller NVIDIA Tesla-grafikprocessorkort (GPU).
Den här artikeln innehåller vägledning och exempel för att använda några av Azures specialiserade storlekar i Batch-pooler. Information om specifikationer och bakgrund finns i:
Kommentar
Vissa VM-storlekar kanske inte är tillgängliga i de regioner där du skapar dina Batch-konton. Information om hur du kontrollerar att en storlek är tillgänglig finns i Produkter tillgängliga per region och Välj en VM-storlek för en Batch-pool.
Beroenden
RDMA- eller GPU-funktionerna i beräkningsintensiva storlekar i Batch stöds endast i vissa operativsystem. De operativsystem som stöds för dessa VM-storlekar innehåller endast en delmängd av de som är tillgängliga för att skapa virtuella datorer. Beroende på hur du skapar batchpoolen kan du behöva installera eller konfigurera extra drivrutin eller annan programvara på noderna. Följande tabeller sammanfattar dessa beroenden. Mer information finns i länkade artiklar. Alternativ för att konfigurera Batch-pooler finns i senare i den här artikeln.
Linux-pooler – Konfiguration av virtuell dator
Storlek | Kapacitet | Operativsystem | Nödvändig programvara | Poolinställningar |
---|---|---|---|---|
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs* |
RDMA | Ubuntu 22.04 LTS (Azure Marketplace) |
Intel MPI 5 Linux RDMA-drivrutiner |
Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning |
NCv3, NDv2, NDv4, NDv5-serien | NVIDIA Tesla GPU (varierar efter serie) | Ubuntu 22.04 LTS (Azure Marketplace) |
NVIDIA CUDA- eller CUDA Toolkit-drivrutiner | Ej tillämpligt |
NVv3, NVv4, NVv5-serien | GPU för accelererad visualisering | Ubuntu 22.04 LTS (Azure Marketplace) |
NVIDIA GRID-drivrutiner (om det behövs) | Ej tillämpligt |
*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er
Viktigt!
Det här dokumentet refererar till en versionsversion av Linux som närmar sig eller vid End of Life (EOL). Överväg att uppdatera till en mer aktuell version.
Windows-pooler – Konfiguration av virtuell dator
Storlek | Kapacitet | Operativsystem | Nödvändig programvara | Poolinställningar |
---|---|---|---|---|
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs* |
RDMA | Windows Server 2016, 2012 R2 eller 2012 (Azure Marketplace) |
Microsoft MPI 2012 R2 eller senare, eller Intel MPI 5 Windows RDMA-drivrutiner |
Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning |
NC, NCv2, NCv3, ND, NDv2-serien | NVIDIA Tesla GPU (varierar efter serie) | Windows Server 2016 eller 2012 R2 (Azure Marketplace) |
NVIDIA CUDA- eller CUDA Toolkit-drivrutiner | Ej tillämpligt |
NV, NVv2, NVv4-serien | NVIDIA Tesla M60 GPU | Windows Server 2016 eller 2012 R2 (Azure Marketplace) |
NVIDIA GRID-drivrutiner | Ej tillämpligt |
*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er
Windows-pooler – Cloud Services-konfiguration
Varning
Cloud Services-konfigurationspooler är inaktuella. Använd vm-konfigurationspooler i stället.
Storlek | Kapacitet | Operativsystem | Nödvändig programvara | Poolinställningar |
---|---|---|---|---|
H16r, H16mr | RDMA | Windows Server 2016, 2012 R2, 2012 eller 2008 R2 (gästoperativsystemfamilj) |
Microsoft MPI 2012 R2 eller senare, eller Intel MPI 5 Windows RDMA-drivrutiner |
Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning |
Kommentar
N-seriens storlekar stöds inte i Cloud Services-konfigurationspooler.
Konfigurationsalternativ för pool
Om du vill konfigurera en särskild VM-storlek för batchpoolen har du flera alternativ för att installera nödvändig programvara eller drivrutiner:
För pooler i konfigurationen av den virtuella datorn väljer du en förkonfigurerad virtuell Azure Marketplace-avbildning med förinstallerade drivrutiner och programvara. Exempel:
Datavetenskap Virtuell dator för Linux eller Windows – innehåller NVIDIA CUDA-drivrutiner
Linux-avbildningar för Batch-containerarbetsbelastningar som även innehåller GPU- och RDMA-drivrutiner:
Ubuntu Server (med GPU- och RDMA-drivrutiner) för Azure Batch-containerpooler
Skapa en anpassad virtuell Windows- eller Linux-avbildning med installerade drivrutiner, programvara eller andra inställningar som krävs för vm-storleken.
Skapa ett Batch-programpaket från en zippad drivrutin eller programinstallationsprogram. Konfigurera sedan Batch för att distribuera det här paketet till poolnoder och installera en gång när varje nod skapas. Om programpaketet till exempel är ett installationsprogram skapar du en startaktivitetskommandorad för att tyst installera appen på alla poolnoder. Överväg att använda ett programpaket och en poolstartaktivitet om din arbetsbelastning är beroende av en viss drivrutinsversion.
Kommentar
Startaktiviteten måste köras med utökade (administratörsbehörigheter) och den måste vänta tills den har slutförts. Långvariga uppgifter ökar tiden för att etablera en Batch-pool.
Exempel: NVIDIA GPU-drivrutiner i Windows NC VM-pool
Om du vill köra CUDA-program på en pool med Windows NC-noder måste du installera NVIDIA GPU-drivrutiner. Följande exempelsteg använder ett programpaket för att installera NVIDIA GPU-drivrutinerna. Du kan välja det här alternativet om din arbetsbelastning är beroende av en specifik GPU-drivrutinsversion.
- Ladda ned ett installationspaket för GPU-drivrutinerna på Windows Server 2016 från NVIDIA-webbplatsen , till exempel version 411.82. Spara filen lokalt med ett kort namn som GPUDriverSetup.exe.
- Skapa en zip-fil för paketet.
- Ladda upp paketet till ditt Batch-konto. Anvisningar finns i vägledningen för programpaket . Ange ett program-ID som GPUDriver och en version som 411.82.
- Använd Batch-API:erna eller Azure Portal och skapa en pool i konfigurationen av den virtuella datorn med önskat antal noder och skala. I följande tabell visas exempelinställningar för att installera NVIDIA GPU-drivrutinerna tyst med hjälp av en startuppgift:
Inställning | Värde |
---|---|
Avbildningstyp | Marketplace (Linux/Windows) |
Utgivare | MicrosoftWindowsServer |
Erbjudande | WindowsServer |
Sku | 2016-Datacenter |
Nodstorlek | NC6 Standard |
Programpaketreferenser | GPUDriver, version 411.82 |
Startaktivitet aktiverad | Sant Kommandorad - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s" Användaridentitet – Automatisk användare av pool, administratör Vänta på framgång – Sant |
Exempel: NVIDIA GPU-drivrutiner på en virtuell Linux NC-pool
Om du vill köra CUDA-program på en pool med Linux NC-noder måste du installera nödvändiga NVIDIA Tesla GPU-drivrutiner från CUDA Toolkit. Följande exempelsteg skapar och distribuerar en anpassad Ubuntu 22.04 LTS-avbildning med GPU-drivrutinerna:
- Distribuera en virtuell dator i Azure NC-serien som kör Ubuntu 22.04 LTS. Skapa till exempel den virtuella datorn i regionen USA, södra centrala.
- Lägg till NVIDIA GPU Drivers-tillägget till den virtuella datorn med hjälp av Azure Portal, en klientdator som ansluter till Azure-prenumerationen eller Azure Cloud Shell. Du kan också följa stegen för att ansluta till den virtuella datorn och installera CUDA-drivrutiner manuellt.
- Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
- Skapa ett Batch-konto i en region som stöder virtuella NC-datorer.
- Använd Batch-API:erna eller Azure Portal och skapa en pool med den anpassade avbildningen och med önskat antal noder och skala. I följande tabell visas exempelpoolinställningar för bilden:
Inställning | Värde |
---|---|
Avbildningstyp | Anpassad avbildning |
Anpassad avbildning | Namnet på avbildningen |
Node agent SKU | batch.node.ubuntu 22.04 |
Nodstorlek | NC6 Standard |
Exempel: Microsoft MPI på en virtuell Windows H16r-pool
Om du vill köra Windows MPI-program på en pool med virtuella Azure H16r-noder måste du konfigurera HpcVmDrivers-tillägget och installera Microsoft MPI. Här följer exempelsteg för att distribuera en anpassad Windows Server 2016-avbildning med nödvändiga drivrutiner och programvara:
- Distribuera en virtuell Azure H16r-dator som kör Windows Server 2016. Skapa till exempel den virtuella datorn i regionen USA, västra.
- Lägg till HpcVmDrivers-tillägget till den virtuella datorn genom att köra ett Azure PowerShell-kommando från en klientdator som ansluter till din Azure-prenumeration eller med Azure Cloud Shell.
- Upprätta en fjärrskrivbordsanslutning till den virtuella datorn.
- Ladda ned installationspaketet (MSMpiSetup.exe) för den senaste versionen av Microsoft MPI och installera Microsoft MPI.
- Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
- Med hjälp av Batch-API:er eller Azure Portal skapar du en pool med hjälp av Azure Compute Gallery och med önskat antal noder och skala. I följande tabell visas exempelpoolinställningar för bilden:
Inställning | Värde |
---|---|
Avbildningstyp | Anpassad avbildning |
Anpassad avbildning | Namnet på avbildningen |
Node agent SKU | batch.node.windows amd64 |
Nodstorlek | H16r Standard |
Internode-kommunikation aktiverad | Sant |
Maximalt antal aktiviteter per nod | 1 |
Nästa steg
- Information om hur du kör MPI-jobb i en Azure Batch-pool finns i Windows- eller Linux-exemplen.