Gestione di token
Si supponga di ottenere un improvviso picco di traffico verso l'API, forse c'è una vendita o un altro motivo. Per evitare il consumo eccessivo e le possibili interruzioni del servizio, è necessario capire come gestirlo.
Criteri di limite dei token OpenAI di Azure
Come accennato all'inizio di questa unità, un picco improvviso è qualcosa, è necessario gestire. La buona notizia è che Gestione API di Azure ha qualcosa di chiamato Criteri limite token.
Questo criterio consente ai clienti di impostare limiti sull'utilizzo dei token, espressi in token al minuto (TPM) e garantisce un utilizzo equo ed efficiente delle risorse OpenAI.
Funzionalità principali
Le funzionalità principali di questo criterio sono:
- Controllo preciso: I clienti possono assegnare limiti basati su token su varie chiavi del contatore, ad esempio la chiave di sottoscrizione o l'indirizzo IP, adattando l'imposizione a casi d'uso specifici.
- Monitoraggio in tempo reale: I criteri si basano sulle metriche di utilizzo dei token restituite dall'endpoint OpenAI, consentendo un monitoraggio accurato e l'applicazione dei limiti in tempo reale.
- Pre-calcolo dei token: Consente il precalcolazione dei token di richiesta sul lato Gestione API di Azure, riducendo al minimo le richieste non necessarie al back-end OpenAI se il limite è già superato.
- Personalizzazione avanzata: I clienti possono applicare intestazioni e variabili, ad esempio token usati e token rimanenti all'interno dei criteri, per migliorare il controllo e la personalizzazione.
Ss si può vedere, ci sono alcune funzionalità che consentono di gestire i costi e grazie al monitoraggio in tempo reale è possibile assicurarsi di non superare i limiti.
Modalità d'uso
Per usare questo criterio, è necessario aggiungerlo alla pipeline di elaborazione in ingresso dell'operazione API. È necessario eseguire la procedura seguente:
<azure-openai-token-limit counter-key="key value"
tokens-per-minute="number"
estimate-prompt-tokens="true | false"
retry-after-header-name="custom header name, replaces default 'Retry-After'"
retry-after-variable-name="policy expression variable name"
remaining-tokens-header-name="header name"
remaining-tokens-variable-name="policy expression variable name"
tokens-consumed-header-name="header name"
tokens-consumed-variable-name="policy expression variable name" />
È possibile impostare alcuni attributi, ma quelli più importanti sono:
- chiave-contatore: Chiave da usare per il conteggio dei token. Questo valore può essere una chiave di sottoscrizione o un indirizzo IP.
- token al minuto: Numero di token consentiti al minuto.
- token-richieste-stime: Indica se stimare o meno i token di richiesta.
Criteri delle metriche dei token di creazione di Azure OpenAI
Questo criterio risolve la necessità di monitorare e analizzare in modo dettagliato l'utilizzo dei token nelle applicazioni usando i modelli OpenAI di Azure.
Fornendo metriche complete, consente alle organizzazioni di:
- Ottimizzare l'allocazione delle risorse: Comprendere e gestire il consumo di token in modo efficace.
- Migliorare il processo decisionale: Ottenere informazioni dettagliate sui modelli di utilizzo per prendere decisioni informate sul ridimensionamento e sulla gestione delle risorse.
- Migliorare il monitoraggio delle prestazioni: Tenere traccia e analizzare l'utilizzo dei token per identificare e risolvere i potenziali problemi in modo proattivo
Come usare i criteri delle metriche dei token di emissione
Per usare questo criterio, è necessario aggiungerlo alla pipeline di elaborazione in ingresso dell'operazione API. Ecco come codificarlo in XML:
<azure-openai-emit-token-metric
namespace="metric namespace" >
<dimension name="dimension name" value="dimension value" />
...additional dimensions...
</azure-openai-emit-token-metric>
Ecco un esempio che usa diverse dimensioni:
<policies>
<inbound>
<azure-openai-emit-token-metric
namespace="AzureOpenAI">
<dimension name="User ID" />
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" />
</azure-openai-emit-token-metric>
</inbound>
<outbound>
</outbound>
</policies>
Nell'esempio precedente:
- Il criterio è configurato per generare metriche del token nello spazio dei nomi AzureOpenAI con dimensioni per ID utente, IP client e ID API.
- Il valore della dimensione IP client è impostato sull'indirizzo IP del client che effettua la richiesta.
Si supponga ora di poter visualizzare queste metriche in un dashboard ed è possibile monitorare l'utilizzo dell'API in tempo reale. Ad esempio, è possibile vedere il numero di token usati da un utente specifico o il numero di token usati da un'API specifica. Questa potente funzionalità che consente di ottimizzare le risorse e prendere decisioni informate sul ridimensionamento e sulla gestione delle risorse.