Quote e limiti del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure
Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per l'inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure. Per quote e limiti specifici per il servizio OpenAI di Azure, vedere Quota e limiti nel servizio OpenAI di Azure.
Informazioni di riferimento su quote e limiti
Le sezioni seguenti forniscono una guida rapida alle quote e ai limiti predefiniti applicabili al servizio di inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure:
Limiti delle risorse
Nome limite | Valore limite |
---|---|
Risorse dei servizi di intelligenza artificiale di Azure per area per ogni sottoscrizione di Azure | 30 |
Numero massimo di distribuzioni per risorsa | 32 |
Limiti di richieste inviate al bot
Nome limite | Valore limite |
---|---|
Token al minuto (modelli OpenAI di Azure) | Varia per modello e SKU. Vedere limiti per Azure OpenAI. |
Token al minuto (resto dei modelli) | 200 |
Richieste al minuto (modelli OpenAI di Azure) | Varia per modello e SKU. Vedere limiti per Azure OpenAI. |
Richieste al minuto (resto dei modelli) | 1.000 |
Altri limiti
Nome limite | Valore limite |
---|---|
Numero massimo di intestazioni personalizzate nelle richieste API 1 | 10 |
1 Le API correnti consentono fino a 10 intestazioni personalizzate, che vengono passate attraverso la pipeline e restituite. Attualmente, alcuni clienti hanno superato questo numero di intestazioni, con la generazione di errori HTTP 431. Non esiste alcuna soluzione per questo errore, se non ridurre il volume dell'intestazione. Nelle versioni future dell'API non si passerà più tramite intestazioni personalizzate. È consigliabile che i clienti non dipendano dalle intestazioni personalizzate nelle architetture di sistema future.
Livelli di utilizzo
Le distribuzioni Standard globali usano l'infrastruttura globale di Azure, instradando dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con livelli elevati di utilizzo sostenuti potrebbero riscontrare una maggiore variabilità nella latenza di risposta.
Il limite di utilizzo determina il livello di utilizzo al di sopra del quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente viene definito per modello ed è il totale dei token utilizzati in tutte le distribuzioni in tutte le sottoscrizioni in tutte le aree per un determinato tenant.
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
La richiesta aumenta alle quote e ai limiti predefiniti
Le richieste di aumento della quota possono essere inviate e valutate per ogni richiesta. Inviare una richiesta di servizio.