Quote e limiti del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure

Articolo
01/30/2025

Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per l'inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure. Per quote e limiti specifici per il servizio OpenAI di Azure, vedere Quota e limiti nel servizio OpenAI di Azure.

Informazioni di riferimento su quote e limiti

Le sezioni seguenti forniscono una guida rapida alle quote e ai limiti predefiniti applicabili al servizio di inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure:

Limiti delle risorse

Nome limite	Valore limite
Risorse dei servizi di intelligenza artificiale di Azure per area per ogni sottoscrizione di Azure	30
Numero massimo di distribuzioni per risorsa	32

Limiti di richieste inviate al bot

Nome limite	Valore limite
Token al minuto (modelli OpenAI di Azure)	Varia per modello e SKU. Vedere limiti per Azure OpenAI.
Token al minuto (resto dei modelli)	200
Richieste al minuto (modelli OpenAI di Azure)	Varia per modello e SKU. Vedere limiti per Azure OpenAI.
Richieste al minuto (resto dei modelli)	1.000

Altri limiti

Nome limite	Valore limite
Numero massimo di intestazioni personalizzate nelle richieste API ¹	10

¹ Le API correnti consentono fino a 10 intestazioni personalizzate, che vengono passate attraverso la pipeline e restituite. Attualmente, alcuni clienti hanno superato questo numero di intestazioni, con la generazione di errori HTTP 431. Non esiste alcuna soluzione per questo errore, se non ridurre il volume dell'intestazione. Nelle versioni future dell'API non si passerà più tramite intestazioni personalizzate. È consigliabile che i clienti non dipendano dalle intestazioni personalizzate nelle architetture di sistema future.

Livelli di utilizzo

Le distribuzioni Standard globali usano l'infrastruttura globale di Azure, instradando dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con livelli elevati di utilizzo sostenuti potrebbero riscontrare una maggiore variabilità nella latenza di risposta.

Il limite di utilizzo determina il livello di utilizzo al di sopra del quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente viene definito per modello ed è il totale dei token utilizzati in tutte le distribuzioni in tutte le sottoscrizioni in tutte le aree per un determinato tenant.

Procedure consigliate generali per rimanere entro i limiti di velocità

Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:

Implementare la logica di ripetizione dei tentativi nell'applicazione.
Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
Testare modelli di aumento del carico diversi.
Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.

La richiesta aumenta alle quote e ai limiti predefiniti

Le richieste di aumento della quota possono essere inviate e valutate per ogni richiesta. Inviare una richiesta di servizio.

Passaggi successivi

Altre informazioni sui modelli disponibili nel servizio di inferenza del modello di intelligenza artificiale di Azure

Condividi tramite