Dela via


Migreringsguide för GPU-beräkningsarbetsbelastningar i Azure

När mer kraftfulla GPU:er blir tillgängliga på marketplace och i Microsoft Azure-datacenter rekommenderar vi att du utvärderar prestandan för dina arbetsbelastningar igen och överväger att migrera till nyare GPU:er.

Av samma anledning, samt för att upprätthålla ett högkvalitativt och tillförlitligt tjänsterbjudande, drar Azure regelbundet tillbaka maskinvaran som driver äldre VM-storlekar. Den första gruppen GPU-produkter som ska dras tillbaka i Azure är de ursprungliga virtuella datorerna NC, NC v2 och ND-serien som drivs av NVIDIA Tesla K80, P100 respektive P40 datacenter GPU-acceleratorer. Dessa produkter kommer att dras tillbaka den 31 augusti 2023 och de äldsta virtuella datorerna i den här serien lanserades 2016.

Sedan dess har GPU:er gjort otroliga framsteg tillsammans med hela djupinlärnings- och HPC-branschen, vilket vanligtvis överstiger en fördubbling av prestanda mellan generationer. Sedan lanseringen av NVIDIA K80, P40 och P100 GPU:er har Azure levererat flera nyare generationer och kategorier av VM-produkter som är inriktade på GPU-accelererad beräkning och AI, baserat på NVIDIA:s T4-, V100- och A100-GPU:er, och differentierats av valfria funktioner som InfiniBand-baserade sammanlänkningsinfrastrukturer. Det här är alla alternativ som vi uppmuntrar kunder att utforska som migreringsvägar.

I de flesta fall minskar den dramatiska prestandaökningen som erbjuds av nyare generationer av GPU:er den totala TCO:n genom att minska varaktigheten för jobbet, för burstbara jobb eller minska mängden övergripande GPU-aktiverade virtuella datorer som krävs för att täcka en fast storlek på beräkningsresurser, även om kostnaderna per GPU-timme kan variera. Utöver dessa fördelar kan kunderna förbättra time-to-solution via högpresterande virtuella datorer och förbättra hälsotillståndet och supporten för sin lösning genom att införa nyare programvara, CUDA-körning och drivrutinsversioner.

Migrering jämfört med optimering

Azure inser att kunderna har en mängd olika krav som kan diktera valet av en specifik produkt för virtuella GPU-datorer, inklusive GPU-arkitekturöverväganden, sammankopplingar, TCO, tid till lösning och regional tillgänglighet baserat på krav på efterlevnadslokalitet eller svarstid, och vissa av dessa ändras till och med över tid.

Samtidigt är GPU-acceleration ett nytt och snabbt växande område.

Därför finns det ingen riktig vägledning för en storlek som passar alla för det här produktområdet, och en migrering är en perfekt tid för att omvärdera potentiellt dramatiska ändringar i en arbetsbelastning, till exempel att flytta från en klustrad distributionsmodell till en enda stor virtuell 8-GPU-dator eller vice versa, utnyttja begränsade precisionsdatatyper, införa funktioner som GPU för flera instanser och mycket mer.

Den här typen av överväganden – när kontexten för redan dramatiska GPU-prestanda per generation ökar, där en funktion som tillägg av TensorCores kan öka prestandan med en storleksordning, är extremt arbetsbelastningsspecifik.

Genom att kombinera migrering med programrearkitektur kan det ge ett enormt värde och en förbättring av kostnader och tid till lösning.

Den här typen av förbättringar ligger dock utanför det här dokumentets omfång, som syftar till att fokusera på direkta likvärdighetsklasser för generaliserade arbetsbelastningar som kan köras av kunder idag, för att identifiera de mest liknande alternativen för virtuella datorer i både pris och prestanda per GPU till befintliga VM-familjer som går i pension.

Därför förutsätter det här dokumentet att användaren kanske inte har någon insikt eller kontroll över arbetsbelastningsspecifika egenskaper som antalet nödvändiga VM-instanser, GPU:er, sammankopplingar med mera.

Virtuella datorer i NC-serien med NVIDIA K80 GPU:er

De virtuella datorerna i NC-serien (v1) är Azures äldsta GPU-accelererade vm-typ, som drivs av 1 till 4 NVIDIA Tesla K80 datacenter GPU-acceleratorer i kombination med Intel Xeon E5-2690 v3-processorer (Haswell). En gång en flaggskepps-VM-typ för krävande AI-, ML- och HPC-program förblev de ett populärt val sent i produktens livscykel (särskilt via NC-seriens kampanjpriser) för användare som värderade att ha en mycket låg absolut kostnad per GPU-timme över GPU:er med högre dataflöde per dollar.

Med tanke på den relativt låga beräkningsprestandan för den åldrande NVIDIA K80 GPU-plattformen, jämfört med VM-serier med nyare GPU:er, är ett populärt användningsfall för NC-serien arbetsbelastningar för realtidsinferens och analys, där en accelererad virtuell dator måste vara tillgänglig i ett stabilt tillstånd för att hantera begäranden från program när de anländer. I dessa fall kan mängden eller batchstorleken för begäranden vara otillräcklig för att dra nytta av mer högpresterande GPU:er. Virtuella NC-datorer är också populära för utvecklare och studenter som lär sig om, utvecklar för eller experimenterar med GPU-acceleration, som behöver ett prisvärt molnbaserat CUDA-distributionsmål som du kan iterera som inte behöver utföras på produktionsnivåer.

I allmänhet bör kunder i NC-serien överväga att flytta direkt från NC-storlekar till NC T4 v3-storlekar , Azures nya GPU-accelererade plattform för lätta arbetsbelastningar som drivs av NVIDIA Tesla T4 GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
eller
Standard_NC8as_T4
CPU: Intel Haswell vs AMD Rom
Antal GPU:er: 1 (samma)
GPU-generation: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 4 (-2) eller 8 (+2)
Minne GiB: 16 (-40) eller 56 (samma)
Temp Storage (SSD) GiB: 180 (-160) eller 360 (+20)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell vs AMD Rom
Antal GPU:er: 1 (-1)
GPU-generation: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 16 (+4)
Minne GiB: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Maximalt antal datadiskar: 48 (+16)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rom
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Minne GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximalt antal datadiskar: 32 (-32)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rom
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Minne GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximalt antal datadiskar: 32 (-32)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammanlänkning: Nej

Virtuella DATORER i NC v2-serien med NVIDIA Tesla P100 GPU:er

De virtuella datorerna i NC v2-serien är en flaggskeppsplattform som ursprungligen utformades för AI- och Deep Learning-arbetsbelastningar. De erbjöd utmärkta prestanda för Djupinlärningsträning, med prestanda per GPU ungefär 2 x den ursprungliga NC-serien och drivs av NVIDIA Tesla P100 GPU:er och Intel Xeon E5-2690 v4 (Broadwell) processorer. Precis som NC- och ND-serien erbjuder NC v2-serien en konfiguration med ett sekundärt nätverk med låg latens, högt dataflöde via RDMA och InfiniBand-anslutning så att du kan köra storskaliga träningsjobb som sträcker sig över många GPU:er.

I allmänhet bör kunder i NCv2-serien överväga att flytta direkt över till NC A100 v4-storlekar , Azures nya GPU-accelererade plattform som drivs av NVIDIA Ampere A100 PCIe GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:er: 1 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generation)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 24 (+18)
Minne GiB: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Maximalt antal datadiskar: 12 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:er: 2 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 48 (+36)
Minne GiB: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Maximalt antal datadiskar: 24 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Minne GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Minne GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammanlänkning: Nej (-)

Virtuella datorer i ND-serien med NVIDIA Tesla P40 GPU:er

De virtuella datorerna i ND-serien är en mellanklassplattform som ursprungligen utformades för AI- och Deep Learning-arbetsbelastningar. De erbjöd utmärkta prestanda för batchinferens via förbättrade flyttalsoperationer med enkel precision jämfört med sina föregångare och drivs av NVIDIA Tesla P40 GPU:er och Intel Xeon E5-2690 v4 (Broadwell) processorer. Precis som NC- och NC v2-serien erbjuder ND-serien en konfiguration med ett sekundärt nätverk med låg svarstid, högt dataflöde via RDMA och InfiniBand-anslutning så att du kan köra storskaliga träningsjobb som sträcker sig över många GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_ND6 Standard_NC4as_T4_v3
eller
Standard_NC8as_T4_v3
CPU: Intel Broadwell vs AMD Rom
Antal GPU:er: 1 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generation)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 4 (-2) eller 8 (+2)
Minne GiB: 16 (-40) eller 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) eller 360 (-372)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell vs AMD Rom
Antal GPU:er: 1 (-1)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generationer)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 16 (+4)
Minne GiB: 110 (-114)
Temp Storage (SSD) GiB: 360 (-1 114)
Maximalt antal datadiskar: 48 (+16)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell vs AMD Rom
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generationer)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 64 (+40)
Minne GiB: 440 (samma)
Temp Storage (SSD) GiB: 2880 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rom
Antal GPU:er: 8 (+4)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generation)
GPU-minne (GiB per GPU): 80 (+56)
vCPU: 96 (+72)
Minne GiB: 1900 (+1452)
Temp Storage (SSD) GiB: 6400 (+3452)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Ja (samma)

Migreringsanvisningar

Allmänna ändringar

  1. Välj en serie och storlek för migrering. Använd priskalkylatorn för ytterligare insikter.

  2. Hämta kvot för mål-VM-serien

  3. Ändra storlek på den aktuella virtuella datorn i N*-serien till målstorleken. Det kan också vara ett bra tillfälle att uppdatera operativsystemet som används av avbildningen av den virtuella datorn eller använda en av HPC-avbildningarna med drivrutiner förinstallerade som startpunkt.

    Viktigt!

    Din VM-avbildning kan ha skapats med en äldre version av CUDA-körningen, NVIDIA-drivrutinen och (om tillämpligt endast för RDMA-aktiverade storlekar) Mellanox OFED-drivrutiner än vad din nya GPU VM-serie kräver, som kan uppdateras genom att följa anvisningarna i Azure-dokumentationen.

Icke-bakåtkompatibla ändringar

Välj målstorlek för migrering

När du har utvärderat din aktuella användning bestämmer du vilken typ av virtuell GPU-dator du behöver. Beroende på arbetsbelastningskraven har du få olika alternativ.

Kommentar

Bästa praxis är att välja en VM-storlek baserat på både kostnad och prestanda. Rekommendationerna i den här guiden baseras på en jämförelse av prestandamått för generell användning, en-till-en och den närmaste matchningen i en annan VM-serie. Innan du bestämmer dig för rätt storlek får du en kostnadsjämförelse med hjälp av Priskalkylatorn för Azure.

Viktigt!

Alla äldre nc-, NC v2- och ND-seriens storlekar är tillgängliga i storlekar med flera GPU:er, inklusive 4 GPU-storlekar med och utan InfiniBand-sammankoppling för utskalning, nära kopplade arbetsbelastningar som kräver mer beräkningskraft än en enda virtuell 4 GPU-dator, eller en enda K80, P40 eller P100 GPU kan leverera. Även om rekommendationerna ovan erbjuder en enkel väg framåt bör användare av dessa storlekar överväga att uppnå sina prestandamål med kraftfullare NVIDIA V100 GPU-baserade VM-serier som NC v3-serien och ND v2-serien, vilket vanligtvis möjliggör samma nivå av arbetsbelastningsprestanda till lägre kostnader och med förbättrad hanterbarhet genom att ge betydligt större prestanda per GPU och per virtuell dator innan konfigurationer med flera GPU och flera noder krävs, respektive.

Hämta kvot för mål-VM-familjen

Följ guiden för att begära en ökning av vCPU-kvoten per VM-familj. Välj den vm-målstorlek som du har valt för migrering.

Ändra storlek på den aktuella virtuella datorn

Du kan ändra storlek på den virtuella datorn.

Nästa steg

En fullständig lista över GPU-aktiverade storlekar för virtuella datorer finns i GPU – översikt över accelererad beräkning