Compartir a través de


Cuota dinámica de Azure OpenAI (versión preliminar)

La cuota dinámica es una característica de Azure OpenAI que permite que una implementación estándar (pago por uso) aproveche de manera oportunista más cuota cuando hay capacidad adicional disponible. Cuando la cuota dinámica se establece en desactivada, la implementación podrá procesar un rendimiento máximo establecido por la configuración de tokens por minuto (TPM). Cuando se supere el TPM preestablecido, las solicitudes devolverán respuestas HTTP 429. Cuando se habilita la cuota dinámica, la implementación tiene la capacidad de acceder a un mayor rendimiento antes de devolver 429 respuestas, lo que le permite realizar más llamadas antes. Las solicitudes adicionales se siguen facturando a las tarifas de precios normales.

La cuota dinámica solo puede aumentar temporalmente la cuota disponible: nunca disminuirá por debajo del valor configurado.

Cuándo usar la cuota dinámica

La cuota dinámica es útil en la mayoría de los escenarios, especialmente cuando la aplicación puede usar capacidad adicional de manera oportunista o la propia aplicación está impulsando la velocidad a la que se llama a la API de Azure OpenAI.

Normalmente, la situación en la que es posible que prefiera evitar la cuota dinámica es cuando la aplicación proporcionaría una experiencia adversa si la cuota es volátil o aumenta.

Para la cuota dinámica, tenga en cuenta escenarios como los siguientes:

  • Procesamiento masivo,
  • Crear resúmenes o incrustaciones para la generación aumentada de recuperación (RAG),
  • Análisis sin conexión de registros para la generación de métricas y evaluaciones,
  • Investigación de prioridad baja,
  • Aplicaciones que tienen asignada una pequeña cantidad de cuota.

¿Cuándo entra en vigor la cuota dinámica?

El back-end de Azure OpenAI decide si se agrega o se quita cuota dinámica adicional de diferentes implementaciones, así como cuándo y cuánta. No se prevé ni se anuncia de antemano y no es predecible. Para aprovechar la cuota dinámica, el código de su aplicación debe poder emitir más solicitudes, ya que las respuestas HTTP 429 se vuelven poco frecuentes. Azure OpenAI permite a la aplicación saber cuándo ha alcanzado el límite de cuota mediante la respuesta con un HTTP 429 y no permitir más llamadas API.

¿Cómo cambia la cuota dinámica los costes?

  • Las llamadas realizadas por encima de la cuota base tienen los mismos costes que las llamadas normales.

  • Activar la cuota dinámica en una implementación no implica ningún coste adicional, aunque el aumento del rendimiento podría provocar un mayor coste en función de la cantidad de tráfico que reciba la implementación.

Nota:

Con la cuota dinámica, no se aplica ninguna cuota o rendimiento "límite" a las llamadas. Azure OpenAI procesará tantas solicitudes como pueda por encima de la cuota de línea base. Si necesita controlar la tasa de gasto incluso cuando la cuota esté menos restringida, el código de su aplicación deberá retener las solicitudes en consecuencia.

Cuándo usar la cuota dinámica

Para usar la cuota dinámica, haga lo siguiente:

  • Active la propiedad de cuota dinámica en la implementación de Azure OpenAI.
  • Asegúrese de que la aplicación pueda aprovechar la cuota dinámica.

Habilitar la cuota dinámica

Para activar la cuota dinámica de la implementación, puede ir a las propiedades avanzadas de la configuración de recursos y activarla:

Captura de la pantalla de la interfaz de usuario de configuración avanzada para implementaciones

Como alternativa, puede habilitarla mediante programación con la CLI de Azure az rest:

Reemplace los valores de {subscriptionId}, {resourceGroupName}, {accountName} y {deploymentName} por los valores pertinentes para el recurso. En este caso, accountName es igual que el nombre de recurso de Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

¿Cómo sé cuánto rendimiento está agregando la cuota dinámica a mi aplicación?

Para supervisar cómo funciona, puede realizar un seguimiento del rendimiento de la aplicación en Azure Monitor. Durante la versión preliminar de la cuota dinámica, no existe ninguna métrica o registro en concreto que indique si la cuota se ha aumentado o reducido dinámicamente. Es menos probable que la cuota dinámica se active para la implementación si se ejecuta en regiones muy usadas y durante las horas punta de uso de esas regiones.

Pasos siguientes