Azure-accelerator för databehandling med höga prestanda (HPC) i landningszonen

Artikel
10/10/2023

Acceleratorn för högpresterande databehandling (HPC) i landningszonen automatiserar distributionen av en miljö. Den här miljön tillhandahåller ett basramverk som du kan anpassa för att skapa en distributionsmekanism från slutpunkt till slutpunkt för en komplett HPC-klusterlösning i Azure. Acceleratorn är en samling skript med öppen källkod och mallar som kan förbereda landningszoner i företagsskala. Det kan ge en specifik arkitekturmetod och en referensimplementering som följer arkitekturen och bästa praxis i Cloud Adoption Framework.

Kunderna använder HPC på olika sätt för att passa deras affärsbehov, och du kan anpassa acceleratorn för HPC-landningszonen för att skapa en arkitektur som passar dig . Med hjälp av acceleratorn kan din organisation få en hållbar skala.

Implementera en landningszon i företagsskala

Acceleratorn för HPC-landningszonen förutsätter att du börjar med en landningszon i företagsskala som har implementerats. Mer information om den här förutsättningen finns i följande artiklar:

Vad acceleratorn för HPC-landningszonen tillhandahåller

Metoden för landningszoner i acceleratorn för HPC-landningszonen tillhandahåller följande tillgångar till projektet:

En modulär metod så att du kan anpassa miljövariabler
Utforma riktlinjer som hjälper dig att utvärdera kritiska beslut
Arkitekturen för landningszonen
En implementering som omfattar:
- En distributionsbar referens som kan skapa miljön för din HPC-distribution
- En Microsoft-godkänd HPC-referensimplementering för att testa den distribuerade miljön

Designriktlinjer för energi, tillverkning och ekonomi

Arkitekturerna för landningszoner varierar beroende på företagssektor, förutom att de varierar beroende på organisation. Det här avsnittet innehåller artiklar per sektor som innehåller riktlinjer för hur du skapar din landningszon:

Designriktlinjer för att välja HPC-beräkning för AI-arbetsbelastningar

Att välja rätt SKU för GPU-optimerad beräkning för AI-arbetsbelastningar är viktigt för att optimera prestanda och kontrollera kostnader. Microsoft erbjuder många olika SKU:er som är optimerade för arbetsbelastningar som drar nytta av mer GPU-kraft. Det finns flera saker att tänka på när du väljer rätt SKU för AI-arbetsbelastningar. Mindre arbetsbelastningar kan bara dra nytta av en bråkdel av processorn, GPU:n och bandbredden för mer kraftfulla SKU:er som NDv4. Du kanske vill överväga andra beräknings-SKU:er som NCv4 och NDv2 för mindre jobb. Här följer några överväganden när du väljer rätt SKU för GPU-optimerad beräkning för AI-arbetsbelastningar:

Kontrollpunkter. Tänk på faktorer som kontrollpunktsintervallet när du kör dina maskininlärningsmodeller. Detta kan påverka GPU-prestanda under träningsfasen. Hitta en balans mellan lagringseffektivitet och upprätthålla smidiga GPU-åtgärder. Övervaka din GPU-användning.
Slutsatsdragning. Inferenskraven skiljer sig från träningskraven, med en möjlig högre CPU-belastning som kan maximera CPU-prestandan. Överväg inferenskraven för din modell när du väljer en beräknings-SKU. Övervaka cpu-användningen.
Träning. Överväg kraven för din modell under träningen och övervaka både CPU- och GPU-användningen.
Storlek på jobb. När du överväger beräknings-SKU:n för dina AI-arbetsbelastningar bör du överväga jobbets storlek. Mindre jobb, till exempel sådana som cirka OPT 1.3B, kanske inte drar nytta av större SKU-storlekar och kan lämna PROCESSOR- och GPU-ström inaktivt beroende på jobbets fas (slutsatsdragning, träning).
Bandbredd. Större bandbredd med lägre svarstid kan vara en kostnad när den inte används. Överväg Att använda InfiniBand endast för de största modellerna som kräver den extra bandbredden.

Visa storlekar för GPU-optimerade virtuella datorer i Azure.

Exempel: konceptuell referensarkitektur för energi

Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för energimiljöer .

Exempel: konceptuell referensarkitektur för ekonomi

Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för ekonomimiljöer .

Exempel: konceptuell referensarkitektur för tillverkning

Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för tillverkningsmiljöer .

Hämta acceleratorn för HPC-landningszonen

Acceleratorn för HPC-landningszonen är tillgänglig på GitHub: Azure HPC OnDemand Platform Accelerator

Nästa steg

Överväganden och rekommendationer för din acceleratorarkitektur för HPC-landningszoner finns i de kritiska designområdena för acceleratorn för HPC-landningszonen i Azure Identity and Access Management.

Dela via