Serverloze GPU's gebruiken in Azure Container Apps (preview)
Azure Container Apps biedt toegang tot GPU's op aanvraag zonder dat u de onderliggende infrastructuur hoeft te beheren. Als serverloze functie betaalt u alleen voor GPU's die in gebruik zijn. Wanneer deze optie is ingeschakeld, neemt het aantal GPU's dat voor uw app wordt gebruikt toe en valt om te voldoen aan de belastingsvereisten van uw toepassing. Met serverloze GPU's kunt u uw workloads naadloos uitvoeren met automatisch schalen, geoptimaliseerde koude start, facturering per seconde met omlaag schalen naar nul wanneer deze niet in gebruik zijn en minder operationele overhead.
Serverloze GPU's worden alleen ondersteund voor workloadprofielen verbruik. De functie wordt niet ondersteund voor omgevingen met alleen verbruik.
Notitie
Toegang tot GPU's is alleen beschikbaar nadat u GPU-quota hebt aangevraagd. U kunt uw GPU-quotumaanvraag indienen via een klantondersteuningsaanvraag.
Vergoedingen
Serverloze GPU's versnellen ai-ontwikkeling doordat u zich kunt richten op uw kern-AI-code en minder op het beheren van de infrastructuur bij het gebruik van GPU's. Deze functie biedt een optie in de middelste laag tussen de serverloze API's van de Azure AI-modelcatalogus en het hosten van modellen op beheerde berekeningen.
De serverloze GPU-ondersteuning voor Container Apps biedt volledige gegevensbeheer, omdat uw gegevens nooit de grenzen van uw container verlaten terwijl er nog steeds een beheerd, serverloos platform wordt geboden waaruit uw toepassingen kunnen worden gebouwd.
Wanneer u serverloze GPU's gebruikt in Container Apps, krijgen uw apps het volgende:
Schaal naar nul GPU's: ondersteuning voor automatisch serverloos schalen van NVIDIA A100 en NVIDIA T4 GPU's.
Facturering per seconde: betaal alleen voor de GPU-rekenkracht die u gebruikt.
Ingebouwd gegevensbeheer: uw gegevens verlaten nooit de containergrens.
Flexibele rekenopties: u kunt kiezen tussen de NVIDIA A100- of T4 GPU-typen.
Middelste laag voor AI-ontwikkeling: Bring your own model on a managed, serverless compute platform.
Algemene scenario's
In de volgende scenario's worden veelvoorkomende use cases voor serverloze GPU's beschreven.
Realtime en batchdeductie: aangepaste opensource-modellen gebruiken met snelle opstarttijden, automatisch schalen en een factureringsmodel per seconde. Serverloze GPU's zijn ideaal voor dynamische toepassingen. U betaalt alleen voor het rekenproces dat u gebruikt en uw apps worden automatisch in- en uitgeschaald om aan de vraag te voldoen.
Machine learning-scenario's: versnel toepassingen die aangepaste generatieve AI-modellen implementeren, deep learning, neurale netwerken of grootschalige gegevensanalyse aanzienlijk versnellen.
High-Performance Computing (HPC): toepassingen waarvoor complexe berekeningen en simulaties nodig zijn, zoals wetenschappelijke computing, financiële modellering of weersvoorspelling, maken gebruik van GPU's als resources voor hoge rekenvereisten.
Rendering en visualisatie: toepassingen die betrekking hebben op 3D-rendering, beeldverwerking of videotranscodering gebruiken vaak GPU's om het renderingproces te versnellen en realtime visualisatie mogelijk te maken.
Big Data Analytics: GPU's kunnen gegevensverwerking en -analyse tussen enorme gegevenssets versnellen.
Overwegingen
Houd rekening met de volgende items wanneer u serverloze GPU's gebruikt:
CUDA-versie: Serverloze GPU's ondersteunen de nieuwste CUDA-versie
Ondersteuningsbeperkingen:
- Slechts één container in een app kan de GPU tegelijk gebruiken. Als u meerdere containers in een app hebt, krijgt de eerste container toegang tot de GPU.
- Meerdere apps kunnen hetzelfde GPU-workloadprofiel delen, maar elk ervan vereist een eigen replica.
- Multi- en fractionele GPU-replica's worden niet ondersteund.
- De eerste container in uw toepassing krijgt toegang tot de GPU.
IP-adressen: Verbruiks-GPU's gebruiken één IP-adres per replica wanneer u integratie met uw eigen virtuele netwerk instelt.
Serverloze GPU-quotum aanvragen
Toegang tot deze functie is alleen beschikbaar nadat u een serverloos GPU-quotum hebt. U kunt uw GPU-quotumaanvraag indienen via een klantondersteuningsaanvraag. Wanneer u een ondersteuningsaanvraag voor een GPU-quotumaanvraag opent, selecteert u het probleemtype Technisch.
Notitie
Klanten met enterprise-overeenkomsten hebben standaard één T4 GPU-quotum ingeschakeld.
Ondersteunde regio’s
Serverloze GPU's zijn beschikbaar in preview in de regio's VS - west 3, Australië - oost en Zweden - centraal .
Serverloze GPU's gebruiken
Wanneer u een container-app maakt via Azure Portal, kunt u uw container instellen voor het gebruik van GPU-resources.
Stel op het tabblad Container van het maakproces de volgende instellingen in:
Schakel onder de sectie Toewijzing van containerresources het selectievakje GPU in.
Selecteer voor het GPU-type*de optie NVIDIA A100 of NVIDIA T4.
Serverloze GPU-workloadprofiel beheren
Serverloze GPU's worden uitgevoerd op GPU-workloadprofielen voor verbruik. U beheert een GPU-workloadprofiel voor verbruik op dezelfde manier als elk ander workloadprofiel. U kunt uw workloadprofiel beheren met behulp van de CLI of Azure Portal.
De koude start van GPU verbeteren
U kunt de koude start van uw containers met GPU verbeteren door artefactstreaming in te schakelen in uw Azure Container Registry.
Notitie
Als u artefactstreaming wilt gebruiken, moeten uw containerinstallatiekopieën worden gehost in Azure Container Registry.
Gebruik de volgende stappen om streaming van installatiekopieën in te schakelen:
Open uw Azure Container Registry in Azure Portal.
Zoek naar opslagplaatsen en selecteer Opslagplaatsen.
Selecteer de naam van de opslagplaats.
Selecteer in het venster Opslagplaats de optie Artefactstreaming starten.
Selecteer de afbeeldingstag die u wilt streamen.
Selecteer in het venster dat wordt weergegeven de optie Streaming-artefact maken.
Feedback verzenden
Dien een probleem in bij de GitHub-opslagplaats van Azure Container Apps.