Administración de tokens
Imagine que recibe un pico repentino en el tráfico hacia la API, tal vez haya una venta o algún otro motivo. Para evitar el consumo excesivo y posible interrupción del servicio, debe averiguar cómo administrarlo.
Directiva de límite de tokens de Azure OpenAI
Como se mencionó al principio de esta unidad, el pico repentino es algo que debe controlar. La buena noticia es que Azure API Management tiene algo llamado Directiva de límite de tokens.
Esta directiva permite a los clientes establecer límites en el consumo de tokens, expresados en tokens por minuto (TPM) y garantiza un uso justo y eficaz de los recursos de OpenAI.
Características clave
Las características clave de esta directiva son:
- Control preciso: Los clientes pueden asignar límites basados en tokens en varias claves de contador, como la clave de suscripción o la dirección IP, adaptando la aplicación a casos de uso específicos.
- Supervisión en tiempo real: La directiva se basa en las métricas de uso de tokens devueltas desde el punto de conexión de OpenAI, lo que permite una supervisión y aplicación precisas de los límites en tiempo real.
- Cálculo previo de tokens: Permite calcular previamente los tokens de solicitud en el lado de Azure API Management, lo que minimiza las solicitudes innecesarias al back-end de OpenAI si ya se ha superado el límite.
- Personalización mejorada: Los clientes pueden aplicar encabezados y variables como tokens consumidos y tokens restantes dentro de las directivas para mejorar el control y la personalización.
Ss puede ver, hay bastantes características que le ayudan a administrar los costos y, gracias a la supervisión en tiempo real, puede asegurarse de que no supera los límites.
Cómo usarlo
Para usar esta directiva, debe agregarla a la canalización de procesamiento de entrada de la operación de API. Así es cómo se puede hacer:
<azure-openai-token-limit counter-key="key value"
tokens-per-minute="number"
estimate-prompt-tokens="true | false"
retry-after-header-name="custom header name, replaces default 'Retry-After'"
retry-after-variable-name="policy expression variable name"
remaining-tokens-header-name="header name"
remaining-tokens-variable-name="policy expression variable name"
tokens-consumed-header-name="header name"
tokens-consumed-variable-name="policy expression variable name" />
Hay bastantes atributos que puede establecer, pero los más importantes son:
- counter-key: Clave que se va a usar para contar tokens. Este valor puede ser una clave de suscripción o una dirección IP.
- tokens-per-minute: Número de tokens permitidos por minuto.
- estimate-prompt-tokens: Indica si se deben calcular los tokens de solicitud o no.
Directiva de métricas de emisión de tokens de Azure OpenAI
Esta directiva aborda la necesidad de supervisión detallada y análisis de uso de tokens en aplicaciones mediante modelos de Azure OpenAI.
Al proporcionar métricas completas, ayuda a las organizaciones a:
- Optimización de la asignación derecursos: Comprenda y administre el consumo de tokens de forma eficaz.
- Mejorar la toma de decisiones: Obtenga información sobre los patrones de uso para tomar decisiones fundamentadas sobre el escalado y la administración de recursos.
- Mejora de la supervisión del rendimiento: Seguimiento y análisis del uso de tokens para identificar y solucionar posibles problemas de forma proactiva
Uso de la directiva de métricas emitir tokens
Para usar esta directiva, debe agregarla a la canalización de procesamiento de entrada de la operación de API. Este es el modo en que lo codifica en XML:
<azure-openai-emit-token-metric
namespace="metric namespace" >
<dimension name="dimension name" value="dimension value" />
...additional dimensions...
</azure-openai-emit-token-metric>
Este es un ejemplo con varias dimensiones:
<policies>
<inbound>
<azure-openai-emit-token-metric
namespace="AzureOpenAI">
<dimension name="User ID" />
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" />
</azure-openai-emit-token-metric>
</inbound>
<outbound>
</outbound>
</policies>
En el ejemplo anterior:
- La directiva está configurada para emitir métricas de token al espacio de nombres AzureOpenAI con dimensiones para el identificador de usuario, la dirección IP de cliente y el identificador de API.
- El valor de la dimensión IP de cliente se establece en la dirección IP del cliente que realiza la solicitud.
Imagine ahora que puede mostrar estas métricas en un panel y puede supervisar el uso de la API en tiempo real. Por ejemplo, puede ver cuántos tokens usan un usuario específico o cuántos tokens usa una API específica. Esta eficaz característica que puede ayudarle a optimizar los recursos y tomar decisiones fundamentadas sobre el escalado y la administración de recursos.