Condividi tramite


Quota dinamica di Azure OpenAI (anteprima)

La quota dinamica è una funzionalità di Azure OpenAI che consente a una distribuzione standard (con pagamento in base al consumo) di sfruttare opportunisticamente una quota maggiore quando è disponibile una capacità aggiuntiva. Quando la quota dinamica è disattivata, la distribuzione sarà in grado di elaborare una velocità effettiva massima stabilito dall'impostazione Token al minuto (TPM). Quando si supera il TPM predefinito, le richieste restituiranno risposte HTTP 429. Quando la quota dinamica è abilitata, la distribuzione ha la possibilità di accedere a una velocità effettiva più elevata prima di restituire 429 risposte, consentendo di eseguire più chiamate in tempi più rapidi. Le richieste aggiuntive verranno comunque fatturate alle normali tariffe.

La quota dinamica può aumentare solo temporaneamente la quota disponibile: non scenderà mai al di sotto del valore configurato.

Quando usare la quota dinamica

La quota dinamica è utile nella maggior parte degli scenari, in particolare quando l'applicazione può usare capacità aggiuntiva in modo opportunistico o quando è l'applicazione stessa a determinare la velocità di chiamata dell'API Azure OpenAI.

In genere, la situazione in cui è preferibile evitare la quota dinamica è quando l'applicazione offre un'esperienza negativa se la quota è volatile o aumentata.

Per la quota dinamica, prendere in considerazione scenari come:

  • Elaborazione in blocco,
  • Creazione di riepiloghi o incorporamenti per la generazione aumentata di recupero (RAG),
  • Analisi offline dei log per la generazione di metriche e valutazioni,
  • Ricerca a bassa priorità,
  • App a cui è assegnata una quota ridotta.

Quando entra in vigore la quota dinamica?

Il back-end di Azure OpenAI decide se, quando e quanta quota dinamica aggiuntiva viene aggiunta o rimossa dalle diverse distribuzioni. Non è previsto o annunciato in anticipo e non è prevedibile. Per sfruttare la quota dinamica, il codice dell'applicazione deve essere in grado di inviare più richieste man mano che le risposte HTTP 429 diventano poco frequenti. Azure OpenAI consente all'applicazione di sapere quando si raggiunge il limite della quota rispondendo con un HTTP 429 senza consentire altre chiamate API.

In che modo la quota dinamica modifica i costi?

  • Le chiamate eseguite oltre la quota base hanno gli stessi costi delle chiamate normali.

  • Non sono previsti costi aggiuntivi per attivare la quota dinamica in una distribuzione, anche se l'aumento della velocità effettiva potrebbe comportare un aumento dei costi, a seconda della quantità di traffico ricevuto dalla distribuzione.

Nota

Con la quota dinamica, non vi è alcuna imposizione delle chiamate di una quota o di una velocità effettiva "massima". Azure OpenAI elaborerà tutte le richieste possibili oltre la quota di base. Se è necessario controllare il tasso di spesa anche quando la quota è meno vincolata, il codice dell'applicazione deve contenere le richieste di conseguenza.

Come usare la quota dinamica

Per usare la quota dinamica, è necessario:

  • Attivare la proprietà della quota dinamica nella distribuzione di Azure OpenAI.
  • Assicurarsi che l'applicazione possa sfruttare la quota dinamica.

Abilitare la quota dinamica

Per attivare la quota dinamica per la distribuzione, è possibile passare alle proprietà avanzate nella configurazione delle risorse e attivarla:

Screenshot dell'interfaccia utente di configurazione avanzata per le distribuzioni.

In alternativa, è possibile abilitarlo a livello di programmazione con l'interfaccia della riga di comando di Azure az rest:

Sostituire {subscriptionId}, {resourceGroupName}, {accountName}e {deploymentName} con i valori pertinenti per la risorsa. In questo caso, accountName è uguale al nome della risorsa OpenAI di Azure.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Come si fa a sapere quanta quota dinamica della velocità effettiva si sta aggiungendo all'app?

Per monitorarne il funzionamento, è possibile tenere traccia della velocità effettiva dell'applicazione in Monitoraggio di Azure. Durante l'anteprima della quota dinamica, non esiste alcuna metrica o log specifico che indichi se la quota è stata aumentata o diminuita dinamicamente. è meno probabile che la quota dinamica venga usata per la distribuzione se viene eseguita in aree molto utilizzate e durante le ore di punta di utilizzo per tali aree.

Passaggi successivi