Konfigurera InfiniBand
Den här artikeln refererar till CentOS, en Linux-distribution som närmar sig EOL-status (End Of Life). Överväg att använda och planera i enlighet med detta. Mer information finns i CentOS End Of Life-vägledningen.
Gäller för: ✔️ Virtuella Linux-datorer ✔️ med virtuella Windows-datorer ✔️ – flexibla skalningsuppsättningar ✔️ Enhetliga skalningsuppsättningar
Dricks
Prova väljareverktyget För virtuella datorer för att hitta andra storlekar som passar bäst för din arbetsbelastning.
Den här artikeln delar viss information om RDMA-kompatibla instanser som ska användas via ett IB-nätverk (InfiniBand). InfiniBand-nätverksarkitekturen har en fullständig fettträdsdesign (som är en nätverkstopologi som ger hög bandbredd och låg svarstid), vilket säkerställer icke-blockerande, bisectional symmetri. Den här konfigurationen ger lika bandbredd mellan två virtuella datorer (VM) inom samma VMSS(VMSS).
RDMA-kompatibla instanser
De flesta storlekar på virtuella HPC-datorer har ett nätverksgränssnitt för fjärranslutning till direkt minnesåtkomst (RDMA). De valda N-seriens storlekar som är avsedda med "r" är också RDMA-kompatibla. Det här gränssnittet är utöver det vanliga Azure Ethernet-nätverksgränssnittet som är tillgängligt i de andra VM-storlekarna.
Det här sekundära gränssnittet gör det möjligt för RDMA-kompatibla instanser att kommunicera via ett InfiniBand-nätverk som arbetar med HDR-priser för HBv4, HBv3, HBv2, EDR-priser för HB, HC, HX, NDv2 och FDR-priser för H16r, H16mr och andra virtuella datorer i RDMA-serien. Dessa RDMA-funktioner kan öka skalbarheten och prestandan för MPI-baserade program (Message Passing Interface).
Kommentar
SR-IOV-stöd: I Azure HPC finns det för närvarande två klasser av virtuella datorer beroende på om de är SR-IOV aktiverade för InfiniBand. För närvarande är nästan alla nyare, RDMA-kompatibla eller InfiniBand-aktiverade virtuella datorer i Azure SR-IOV aktiverade förutom H16r, H16mr och NC24r. RDMA är endast aktiverat via InfiniBand-nätverket och stöds för alla RDMA-kompatibla virtuella datorer. IP via IB stöds endast på de virtuella datorerna som är SR-IOV-aktiverade. RDMA är inte aktiverat via Ethernet-nätverket.
Operativsystem – Linux-distributioner som CentOS, RHEL, AlmaLinux, Ubuntu och SUSE används ofta. Windows Server 2016 och senare versioner stöds på alla virtuella datorer i HPC-serien. Observera att Windows Server 2012 R2 inte stöds på HBv2 och senare som VM-storlekar med fler än 64 (virtuella eller fysiska) kärnor. Se VM-avbildningar för en lista över avbildningar av virtuella Linux-datorer som stöds på Azure Marketplace och hur de kan konfigureras på rätt sätt. På respektive vm-storlekssidor visas även stöd för programvarustacken.
InfiniBand och drivrutiner – På infiniBand-aktiverade virtuella datorer krävs lämpliga drivrutiner för att aktivera RDMA. Mer information om VM-tillägg eller manuell installation av InfiniBand-drivrutiner finns i Aktivera InfiniBand .
MPI – De SR-IOV-aktiverade VM-storlekarna i Azure gör att nästan alla varianter av MPI kan användas med Mellanox OFED. Mer information om hur du konfigurerar MPI på virtuella HPC-datorer i Azure finns i Konfigurera MPI för HPC för HPC .
Kommentar
RDMA-nätverksadressutrymme: RDMA-nätverket i Azure reserverar adressutrymmet 172.16.0.0/16. Om du vill köra MPI-program på instanser som distribuerats i ett virtuellt Azure-nätverk kontrollerar du att det virtuella nätverkets adressutrymme inte överlappar RDMA-nätverket.
Konfigurationsalternativ för kluster
Azure har flera alternativ för att skapa kluster med virtuella HPC-datorer som kan kommunicera med RDMA-nätverket, inklusive:
Virtuella datorer – Distribuera de RDMA-kompatibla virtuella HPC-datorerna i samma skalningsuppsättning eller tillgänglighetsuppsättning (när du använder Azure Resource Manager-distributionsmodellen). Om du använder den klassiska distributionsmodellen distribuerar du de virtuella datorerna i samma molntjänst.
Vm-skalningsuppsättningar – I en VM-skalningsuppsättning kontrollerar du att du begränsar distributionen till en enda placeringsgrupp för InfiniBand-kommunikation i skalningsuppsättningen. I en Resource Manager-mall anger du
singlePlacementGroup
till exempel egenskapen tilltrue
.
Observera att den maximala skalningsuppsättningsstorleken som kan spunnas upp med singlePlacementGroup=true
är begränsad till 100 virtuella datorer som standard. Om dina HPC-jobbskalningsbehov är högre än 100 virtuella datorer i en enda klientorganisation kan du begära en ökning, öppna en kundsupportbegäran online utan kostnad. Gränsen för antalet virtuella datorer i en enda skalningsuppsättning kan ökas till 300. Observera att när du distribuerar virtuella datorer med hjälp av tillgänglighetsuppsättningar är maxgränsen 200 virtuella datorer per tillgänglighetsuppsättning.
VMSS fungerar också som isoleringsgräns mellan arbetsbelastningar i samma kluster, vilket säkerställer att instanser i olika VMSS förblir isolerade från varandra för att garantera säkerheten.
Kommentar
MPI mellan virtuella datorer: Om RDMA (t.ex. användning av MPI-kommunikation) krävs mellan virtuella datorer kontrollerar du att de virtuella datorerna finns i samma VM-skalningsuppsättning eller tillgänglighetsuppsättning.
Azure CycleCloud – Skapa ett HPC-kluster med Hjälp av Azure CycleCloud för att köra MPI-jobb.
Azure Batch – Skapa en Azure Batch-pool för att köra MPI-arbetsbelastningar. Information om hur du använder beräkningsintensiva instanser när du kör MPI-program med Azure Batch finns i Använda aktiviteter med flera instanser för att köra MPI-program (Message Passing Interface) i Azure Batch.
Microsoft HPC Pack - HPC Pack innehåller en körningsmiljö för MS-MPI som använder Azure RDMA-nätverket när det distribueras på RDMA-kompatibla virtuella Linux-datorer. Exempel på distributioner finns i Konfigurera ett Linux RDMA-kluster med HPC Pack för att köra MPI-program.
Att tänka på vid distribuering
Azure-prenumeration – Om du vill distribuera fler än några beräkningsintensiva instanser bör du överväga en betala per användning-prenumeration eller andra köpalternativ. Om du använder ett kostnadsfritt Azure-konto kan du bara använda ett begränsat antal Azure Compute-kärnor.
Priser och tillgänglighet – Kontrollera priser och tillgänglighet för virtuella datorer efter Azure-regioner.
Kärnkvot – Du kan behöva öka kärnkvoten i din Azure-prenumeration från standardvärdet. Din prenumeration kan också begränsa antalet kärnor som du kan distribuera i vissa vm-storleksfamiljer, inklusive H-serien. Om du vill begära en ökning av kvoten kan du öppna ett kundsupportärende online utan kostnad. (Standardgränserna kan variera beroende på din prenumerationskategori.)
Kommentar
Kontakta Azure Support om du har storskaliga kapacitetsbehov. Azure-kvoter är kreditgränser, inte kapacitetsgarantier. Oavsett din kvot debiteras du bara för kärnor som du använder.
Virtuellt nätverk – Ett virtuellt Azure-nätverk krävs inte för att använda beräkningsintensiva instanser. För många distributioner behöver du dock minst ett molnbaserat virtuellt Azure-nätverk eller en plats-till-plats-anslutning om du behöver komma åt lokala resurser. När det behövs skapar du ett nytt virtuellt nätverk för att distribuera instanserna. Det går inte att lägga till beräkningsintensiva virtuella datorer i ett virtuellt nätverk i en tillhörighetsgrupp.
Storleksändring – På grund av deras specialiserade maskinvara kan du bara ändra storlek på beräkningsintensiva instanser inom samma storleksfamilj (H-serien eller N-serien). Du kan till exempel bara ändra storlek på en virtuell dator i H-serien från en H-seriestorlek till en annan. Ytterligare överväganden kring InfiniBand-drivrutinsstöd och NVMe-diskar kan behöva övervägas för vissa virtuella datorer.
Nästa steg
- Läs mer om att konfigurera dina virtuella datorer, aktivera InfiniBand, konfigurera MPI och optimera HPC-program för Azure på HPC-arbetsbelastningar.
- Granska översikten över HBv3-serien och HC-serien.
- Läs om de senaste meddelandena, HPC-arbetsbelastningsexempel och prestandaresultat på Azure Compute Tech Community-bloggarna.
- En arkitekturvy på högre nivå för att köra HPC-arbetsbelastningar finns i HPC (High Performance Computing) på Azure.