Använda serverlösa GPU:er i Azure Container Apps (förhandsversion)

Artikel
01/09/2025

Azure Container Apps ger åtkomst till GPU:er på begäran utan att du behöver hantera den underliggande infrastrukturen. Som en serverlös funktion betalar du bara för GPU:er som används. När det är aktiverat ökar och minskar antalet GPU:er som används för din app för att uppfylla programmets belastningskrav. Med serverlösa GPU:er kan du sömlöst köra dina arbetsbelastningar med automatisk skalning, optimerad kallstart, per sekund-fakturering med nedskalning till noll när de inte används och lägre driftkostnader.

Serverlösa GPU:er stöds endast för förbrukningsarbetsbelastningsprofiler. Funktionen stöds inte för miljöer med endast förbrukning.

Kommentar

Åtkomst till GPU:er är endast tillgängligt när du har begär GPU-kvoter. Du kan skicka din GPU-kvotbegäran via ett kundsupportärende.

Förmåner

Serverlösa GPU:er påskyndar AI-utvecklingen genom att du kan fokusera på din grundläggande AI-kod och mindre på att hantera infrastruktur när du använder GPU:er. Den här funktionen tillhandahåller ett mellanlageralternativ mellan Azure AI-modellkatalogens serverlösa API:er och värdmodeller för hanterad beräkning.

Serverlöst GPU-stöd för Container Apps ger fullständig datastyrning eftersom dina data aldrig lämnar gränserna för containern samtidigt som de tillhandahåller en hanterad, serverlös plattform som du kan skapa dina program från.

När du använder serverlösa GPU:er i Container Apps får dina appar:

Skalning till noll GPU:er: Stöd för automatisk serverlös skalning av NVIDIA A100 och NVIDIA T4 GPU:er.
Fakturering per sekund: Betala endast för den GPU-beräkning som du använder.
Inbyggd datastyrning: Dina data lämnar aldrig containergränsen.
Flexibla beräkningsalternativ: Du kan välja mellan NVIDIA A100- eller T4 GPU-typerna.
Mellanlager för AI-utveckling: Ta med din egen modell på en hanterad, serverlös beräkningsplattform.

Vanliga scenarier

Följande scenarier, även om de inte är omfattande, beskriver vanliga användningsfall för serverlösa GPU:er.

Slutsatsdragning i realtid och batch: Använda anpassade modeller med öppen källkod med snabba starttider, automatisk skalning och en faktureringsmodell per sekund. Serverlösa GPU:er är idealiska för dynamiska program. Du betalar bara för den beräkning du använder och dina appar skalar automatiskt in och ut för att möta efterfrågan.
Maskininlärningsscenarier: Avsevärt snabbare program som implementerar finjusterade anpassade generativa AI-modeller, djupinlärning, neurala nätverk eller storskalig dataanalys.
Högpresterande databehandling (HPC): Program som kräver komplexa beräkningar och simuleringar, till exempel vetenskaplig databehandling, finansiell modellering eller väderprognoser, använder GPU:er som resurser för höga beräkningskrav.
Rendering och visualisering: Program som omfattar 3D-rendering, bildbearbetning eller videotranskodning använder ofta GPU:er för att påskynda renderingsprocessen och aktivera visualisering i realtid.
Stordataanalys: GPU:er kan påskynda databearbetning och analys bland massiva datamängder.

Att tänka på

Tänk på följande när du använder serverlösa GPU:er:

CUDA-version: Serverlösa GPU:er stöder den senaste CUDA-versionen
Supportbegränsningar:
- Endast en container i en app kan använda GPU:n i taget. Om du har flera containrar i en app får den första containern åtkomst till GPU:n.
- Flera appar kan dela samma GPU-arbetsbelastningsprofil, men var och en kräver en egen replik.
- Fler- och bråktals-GPU-repliker stöds inte.
- Den första containern i ditt program får åtkomst till GPU:n.
IP-adresser: Förbruknings-GPU:er använder en IP-adress per replik när du konfigurerar integrering med ditt eget virtuella nätverk.

Begär serverlös GPU-kvot

Åtkomst till den här funktionen är endast tillgänglig när du har en serverlös GPU-kvot. Du kan skicka din GPU-kvotbegäran via ett kundsupportärende. När du öppnar ett supportärende för en GPU-kvotbegäran väljer du problemtypen "Teknisk".

Kommentar

Kunder med enterprise-avtal har en enda T4 GPU-kvot aktiverad som standard.

Regioner som stöds

Serverlösa GPU:er finns i förhandsversion i regionerna USA, västra 3, Australien, östra och Sverige, centrala .

Använda serverlösa GPU:er

När du skapar en containerapp via Azure Portal kan du konfigurera containern så att den använder GPU-resurser.

På fliken Container i processen för att skapa anger du följande inställningar:

Markera kryssrutan GPU under avsnittet Resursallokering av container.
För GPU-typ*väljer du antingen alternativet NVIDIA A100 eller NVIDIA T4.

Hantera en serverlös GPU-arbetsbelastningsprofil

Serverlösa GPU:er körs på förbrukningsprofiler för GPU-arbetsbelastningar. Du hanterar en GPU-arbetsbelastningsprofil för förbrukning på samma sätt som andra arbetsbelastningsprofiler. Du kan hantera din arbetsbelastningsprofil med hjälp av CLI eller Azure Portal.

Förbättra GPU-kallstart

Du kan förbättra kallstarten på dina GPU-aktiverade containrar genom att aktivera artefaktströmning i Azure Container Registry.

Kommentar

Om du vill använda artefaktströmning måste dina containeravbildningar finnas i Azure Container Registry.

Använd följande steg för att aktivera bildströmning:

Öppna Azure Container Registry i Azure Portal.
Sök efter lagringsplatser och välj Lagringsplatser.
Välj lagringsplatsens namn.
I fönstret Lagringsplats väljer du Starta artefaktströmning.
Välj den bildtagg som du vill strömma.
I fönstret som visas väljer du Skapa strömmande artefakt.

Skicka feedback

Skicka problemet till GitHub-lagringsplatsen för Azure Container Apps.

Nästa steg

Generera avbildningar med serverlösa GPU:er

Dela via

Använda serverlösa GPU:er i Azure Container Apps (förhandsversion)

Förmåner

Vanliga scenarier

Att tänka på

Begär serverlös GPU-kvot

Regioner som stöds

Använda serverlösa GPU:er

Hantera en serverlös GPU-arbetsbelastningsprofil

Förbättra GPU-kallstart

Skicka feedback

Nästa steg

Feedback

Ytterligare resurser