Compartir vía


Límites y cuotas de la inferencia del modelo de Azure AI en los servicios de Azure AI

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de la inferencia del modelo de Azure AI en los servicios de Azure AI. Para ver cuotas y límites específicos del servicio Azure OpenAI, consulte Cuota y límites en el servicio Azure OpenAI.

Referencia de las cuotas y límites

En las siguientes secciones se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican al servicio de inferencia del modelo de Azure AI en los servicios de Azure AI:

Límites de recursos

Nombre del límite Valor límite
Recursos de los servicios de Azure AI por región y por suscripción de Azure 30
Máximo de implementaciones por recurso 32

Límites de frecuencia

Nombre del límite Valor límite
Tokens por minuto (modelos de Azure OpenAI) Varía según el modelo y la SKU. Consulte límites para Azure OpenAI.
Tokens por minuto (resto de modelos) 200 000
Solicitudes por minuto (modelos de Azure OpenAI) Varía según el modelo y la SKU. Consulte límites para Azure OpenAI.
Solicitudes por minuto (resto de modelos) 1000

Otros límites

Nombre del límite Valor límite
Número máximo de encabezados personalizados en solicitudes de API 1 10

1 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Hemos observado que algunos clientes superan este número de encabezados, lo que provoca errores HTTP 431. No hay solución para este error, salvo reducir el volumen de la cabecera. En futuras versiones de API ya no pasaremos por encabezados personalizados. Recomendamos a los clientes que no dependan de encabezados personalizados en futuras arquitecturas de sistemas.

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esto permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenido podrían ver más variabilidad en la latencia de respuesta.

El Límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo y es el total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

Procedimientos recomendados generales para permanecer dentro de los límites de frecuencia

Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:

  • Implemente lógica de reintento en la aplicación.
  • Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Prueba de diferentes patrones de aumento de carga
  • Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Solicitud de aumentos de las cuotas y límites predeterminados

Las solicitudes de aumento de cuota se pueden enviar y evaluar por solicitud. Envíe una solicitud de servicio.

Pasos siguientes