Condividi tramite


Uso di GPU serverless in App Azure Container (anteprima)

App Azure Container consente l'accesso a GPU su richiesta senza dover gestire l'infrastruttura sottostante. Come funzionalità serverless, si paga solo per LE GPU in uso. Se abilitata, il numero di GPU usate per l'app aumenta e scende per soddisfare le richieste di carico dell'applicazione. Le GPU serverless consentono di eseguire facilmente i carichi di lavoro con scalabilità automatica, avvio a freddo ottimizzato, fatturazione al secondo con riduzione di zero quando non in uso e riduzione del sovraccarico operativo.

Le GPU serverless sono supportate solo per i profili del carico di lavoro a consumo. La funzionalità non è supportata per gli ambienti solo a consumo.

Nota

L'accesso alle GPU è disponibile solo dopo aver richiesto quote GPU. È possibile inviare la richiesta di quota GPU tramite un caso di supporto clienti.

Vantaggi

Le GPU serverless accelerano lo sviluppo di intelligenza artificiale consentendo di concentrarsi sul codice di intelligenza artificiale principale e meno sulla gestione dell'infrastruttura quando si usano GPU. Questa funzionalità offre un'opzione di livello intermedio tra le API serverless del catalogo dei modelli di Intelligenza artificiale di Azure e i modelli di hosting in calcolo gestito.

Il supporto della GPU serverless di App contenitore offre una governance completa dei dati perché i dati non lasciano mai i limiti del contenitore pur fornendo una piattaforma serverless gestita da cui compilare le applicazioni.

Quando si usano GPU serverless nelle app contenitore, le app ottengono:

  • GPU scale-to-zero: supporto per il ridimensionamento serverless automatico delle GPU NVIDIA A100 e NVIDIA T4.

  • Fatturazione al secondo: pagamento solo per il calcolo GPU usato.

  • Governance dei dati predefinita: i dati non lasciano mai il limite del contenitore.

  • Opzioni di calcolo flessibili: è possibile scegliere tra i tipi GPU NVIDIA A100 o T4.

  • Livello intermedio per lo sviluppo di intelligenza artificiale: usare un modello personalizzato in una piattaforma di calcolo serverless gestita.

Scenari comuni

Gli scenari seguenti, pur non completi, descrivono i casi d'uso comuni per le GPU serverless.

  • Inferenza in tempo reale e batch: uso di modelli open source personalizzati con tempi di avvio rapidi, scalabilità automatica e modello di fatturazione al secondo. Le GPU serverless sono ideali per le applicazioni dinamiche. Si paga solo per il calcolo usato e le app aumentano e aumentano automaticamente le prestazioni per soddisfare la domanda.

  • Scenari di Machine Learning: velocizzare significativamente le applicazioni che implementano modelli di intelligenza artificiale personalizzati ottimizzati, Deep Learning, reti neurali o analisi dei dati su larga scala.

  • HPC (High Performance Computing): applicazioni che richiedono calcoli e simulazioni complessi, ad esempio calcolo scientifico, modellazione finanziaria o previsioni meteo usano GPU come risorse per esigenze di calcolo elevate.

  • Rendering e visualizzazione: le applicazioni che coinvolgono il rendering 3D, l'elaborazione di immagini o la transcodifica video spesso usano GPU per accelerare il processo di rendering e abilitare la visualizzazione in tempo reale.

  • Analisi dei Big Data: le GPU possono accelerare l'elaborazione e l'analisi dei dati tra set di dati di grandi dimensioni.

Considerazioni

Tenere presente quanto segue quando si usano GPU serverless:

  • Versione CUDA: le GPU serverless supportano la versione CUDA più recente

  • Limitazioni del supporto:

    • Un solo contenitore in un'app può usare la GPU alla volta.
    • Più app possono condividere lo stesso profilo del carico di lavoro GPU, ma ognuna richiede la propria replica.
    • Le repliche GPU multi e frazionarie non sono supportate.
    • Il primo contenitore nell'applicazione ottiene l'accesso alla GPU.
  • Indirizzi IP: le GPU a consumo usano un indirizzo IP per replica quando si configura l'integrazione con la propria rete virtuale.

Richiedere la quota GPU serverless

L'accesso a questa funzionalità è disponibile solo dopo avere una quota GPU serverless. È possibile inviare la richiesta di quota GPU tramite un caso di supporto clienti. Quando si apre un caso di supporto per una richiesta di quota GPU, selezionare il tipo di problema "Technical".

Nota

I clienti con contratti Enterprise hanno una singola quota GPU T4 abilitata per impostazione predefinita.

Aree geografiche supportate

Le GPU serverless sono disponibili in anteprima nelle aree Stati Uniti occidentali 3 e Australia orientale .

Usare GPU serverless

Quando si crea un'app contenitore tramite il portale di Azure, è possibile configurare il contenitore per l'uso delle risorse GPU.

Nella scheda Contenitore del processo di creazione impostare le impostazioni seguenti:

  1. Nella sezione Allocazione risorse contenitore selezionare la casella di controllo GPU.

  2. Per Tipo GPU*, selezionare l'opzione NVIDIA A100 o NVIDIA T4.

Gestire il profilo del carico di lavoro GPU serverless

Le GPU serverless vengono eseguite nei profili di carico di lavoro GPU a consumo. È possibile gestire un profilo del carico di lavoro GPU a consumo nello stesso modo di qualsiasi altro profilo del carico di lavoro. È possibile gestire il profilo del carico di lavoro usando l'interfaccia della riga di comando o il portale di Azure.

Migliorare l'avvio a freddo della GPU

È possibile migliorare l'avvio a freddo nei contenitori abilitati per GPU abilitando lo streaming degli artefatti nel Registro Azure Container.

Nota

Per usare lo streaming degli artefatti, le immagini del contenitore devono essere ospitate in Registro Azure Container.

Per abilitare lo streaming di immagini, seguire questa procedura:

  1. Aprire il Registro Azure Container nel portale di Azure.

  2. Cercare Repository e selezionare Repository.

  3. Selezionare il nome del repository.

  4. Nella finestra Repository selezionare Avvia flusso di artefatti.

  5. Selezionare il tag immagine da trasmettere.

  6. Nella finestra visualizzata selezionare Crea artefatto di streaming.

Invia commenti

Inviare il problema al repository GitHub di App Azure Container.

Passaggi successivi