Azure-accelerator för databehandling med höga prestanda (HPC) i landningszonen
Acceleratorn för högpresterande databehandling (HPC) i landningszonen automatiserar distributionen av en miljö. Den här miljön tillhandahåller ett basramverk som du kan anpassa för att skapa en distributionsmekanism från slutpunkt till slutpunkt för en komplett HPC-klusterlösning i Azure. Acceleratorn är en samling skript med öppen källkod och mallar som kan förbereda landningszoner i företagsskala. Det kan ge en specifik arkitekturmetod och en referensimplementering som följer arkitekturen och bästa praxis i Cloud Adoption Framework.
Kunderna använder HPC på olika sätt för att passa deras affärsbehov, och du kan anpassa acceleratorn för HPC-landningszonen för att skapa en arkitektur som passar dig . Med hjälp av acceleratorn kan din organisation få en hållbar skala.
Implementera en landningszon i företagsskala
Acceleratorn för HPC-landningszonen förutsätter att du börjar med en landningszon i företagsskala som har implementerats. Mer information om den här förutsättningen finns i följande artiklar:
- Börja med Cloud Adoption Framework-landningszoner i företagsskala
- Implementera cloud adoption framework-landningszoner i företagsskala i Azure
Vad acceleratorn för HPC-landningszonen tillhandahåller
Metoden för landningszoner i acceleratorn för HPC-landningszonen tillhandahåller följande tillgångar till projektet:
- En modulär metod så att du kan anpassa miljövariabler
- Utforma riktlinjer som hjälper dig att utvärdera kritiska beslut
- Arkitekturen för landningszonen
- En implementering som omfattar:
- En distributionsbar referens som kan skapa miljön för din HPC-distribution
- En Microsoft-godkänd HPC-referensimplementering för att testa den distribuerade miljön
Designriktlinjer för energi, tillverkning och ekonomi
Arkitekturerna för landningszoner varierar beroende på företagssektor, förutom att de varierar beroende på organisation. Det här avsnittet innehåller artiklar per sektor som innehåller riktlinjer för hur du skapar din landningszon:
Energi (olja och gas)
- Azure Billing och Microsoft Entra-klienter för energy HPC
- Identitets- och åtkomsthantering för Azure HPC i energi
- Hantering av Azure HPC inom energi
- Nätverkstopologi och anslutning för Azure HPC i energi
- Plattformsautomatisering och DevOps för Azure HPC i energi
- Resursorganisation för HPC i energiindustrin
- Styrning för HPC i energibranscher
- Säkerhet för Azure HPC inom energi
- Beräkna storskaliga HPC-programarbetsbelastningar på virtuella Azure-datorer
- Lagring för HPC-energimiljöer
Manufacturing
- Tillverkning av HPC Azure-fakturering och Active Directory-klientorganisationer
- Azure-identitets- och åtkomsthantering för HPC vid tillverkning
- Hantering av HPC inom tillverkningsindustrin
- Tillverkning av HPC-nätverkstopologi och anslutning
- Plattformsautomatisering och DevOps för Azure HPC i tillverkningsindustrin
- Tillverkning av HPC-resursorganisation
- Azure-styrning för tillverkning av HPC
- Säkerhet för HPC inom tillverkningsindustrin
- Tillverkning av HPC-lagring
Ekonomi
- Azure-faktureringserbjudanden och Active Directory-klienter för finance HPC
- Finansiera HPC Azure-identitets- och åtkomsthantering
- Ledning för HPC inom finanssektorn
- Nätverkstopologi och anslutning för HPC inom finanssektorn
- Plattformsautomatisering och DevOps för HPC inom finanssektorn
- Resursorganisation för Azure HPC inom finanssektorn
- Styrning för finance HPC
- Säkerhet för HPC inom finanssektorn
- Lagring för HPC inom finanssektorn
Designriktlinjer för att välja HPC-beräkning för AI-arbetsbelastningar
Att välja rätt SKU för GPU-optimerad beräkning för AI-arbetsbelastningar är viktigt för att optimera prestanda och kontrollera kostnader. Microsoft erbjuder många olika SKU:er som är optimerade för arbetsbelastningar som drar nytta av mer GPU-kraft. Det finns flera saker att tänka på när du väljer rätt SKU för AI-arbetsbelastningar. Mindre arbetsbelastningar kan bara dra nytta av en bråkdel av processorn, GPU:n och bandbredden för mer kraftfulla SKU:er som NDv4. Du kanske vill överväga andra beräknings-SKU:er som NCv4 och NDv2 för mindre jobb. Här följer några överväganden när du väljer rätt SKU för GPU-optimerad beräkning för AI-arbetsbelastningar:
- Kontrollpunkter. Tänk på faktorer som kontrollpunktsintervallet när du kör dina maskininlärningsmodeller. Detta kan påverka GPU-prestanda under träningsfasen. Hitta en balans mellan lagringseffektivitet och upprätthålla smidiga GPU-åtgärder. Övervaka din GPU-användning.
- Slutsatsdragning. Inferenskraven skiljer sig från träningskraven, med en möjlig högre CPU-belastning som kan maximera CPU-prestandan. Överväg inferenskraven för din modell när du väljer en beräknings-SKU. Övervaka cpu-användningen.
- Träning. Överväg kraven för din modell under träningen och övervaka både CPU- och GPU-användningen.
- Storlek på jobb. När du överväger beräknings-SKU:n för dina AI-arbetsbelastningar bör du överväga jobbets storlek. Mindre jobb, till exempel sådana som cirka OPT 1.3B, kanske inte drar nytta av större SKU-storlekar och kan lämna PROCESSOR- och GPU-ström inaktivt beroende på jobbets fas (slutsatsdragning, träning).
- Bandbredd. Större bandbredd med lägre svarstid kan vara en kostnad när den inte används. Överväg Att använda InfiniBand endast för de största modellerna som kräver den extra bandbredden.
Visa storlekar för GPU-optimerade virtuella datorer i Azure.
Exempel: konceptuell referensarkitektur för energi
Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för energimiljöer .
Exempel: konceptuell referensarkitektur för ekonomi
Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för ekonomimiljöer .
Exempel: konceptuell referensarkitektur för tillverkning
Följande konceptuella referensarkitektur är ett exempel som visar designområden och metodtips för tillverkningsmiljöer .
Hämta acceleratorn för HPC-landningszonen
Acceleratorn för HPC-landningszonen är tillgänglig på GitHub: Azure HPC OnDemand Platform Accelerator
Nästa steg
Överväganden och rekommendationer för din acceleratorarkitektur för HPC-landningszoner finns i de kritiska designområdena för acceleratorn för HPC-landningszonen i Azure Identity and Access Management.