Compartir vía


Límites y cuotas de Azure OpenAI Service

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites para Azure OpenAI en los servicios Azure AI.

Referencia de las cuotas y límites

En las secciones siguientes se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite Límite de valor
Recursos de OpenAI por región y por suscripción de Azure 30
Límites de cuota de DALL-E 2 predeterminados 2 solicitudes simultáneas
Límites de cuota de DALL-E 3 predeterminados 2 unidades de capacidad (6 solicitudes por minuto)
Límites predeterminados de cuota de susurro 3 solicitudes por minuto
Número máximo de tokens de solicitud por solicitud Varía según el modelo. Para obtener más información, consulte Modelos de servicio de OpenAI de Azure
Número máximo de implementaciones estándar por recurso 32
Número máximo de implementaciones de modelos ajustados 5
Número total de trabajos de entrenamiento por recurso 100
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso 1
Número máximo de trabajos de entrenamiento en cola 20
Máximo de archivos por recurso (ajuste preciso) 50
Tamaño total de todos los archivos por recurso (ajuste preciso) 1 GB
Tiempo máximo del trabajo de entrenamiento (se producirá un error en el trabajo si se supera) 720 horas
Tamaño máximo del trabajo de entrenamiento (tokens en el archivo de entrenamiento) x (número de épocas) 2 mil millones
Tamaño máximo de todos los archivos por carga (Azure OpenAI en los datos) 16 MB
Número máximo de entradas en la matriz con /embeddings 2048
Número máximo de mensajes /chat/completions 2048
Número máximo de funciones /chat/completions 128
Número máximo de herramientas /chat completions 128
Número máximo de unidades de procesamiento aprovisionadas por implementación 100 000
Número máximo de archivos por asistente o subproceso 10 000 al usar la API o AI Studio. 20 al usar Azure OpenAI Studio.
Tamaño máximo de archivo para asistentes y ajuste preciso 512 MB
Tamaño máximo de todos los archivos cargados para asistentes 100 GB
Límite de tokens de asistentes Límite de 2 000 000 tokens
GPT-4o imágenes máximas por solicitud (nº de imágenes en la matriz de mensajes/historial de conversaciones) 10
GPT-4 vision-preview y GPT-4 turbo-2024-04-09 tokens máximos predeterminados 16

Aumente el valor del parámetro max_tokens para evitar las respuestas truncadas. GPT-4o max tokens tiene como valor predeterminado 4096.
Número máximo de encabezados personalizados en solicitudes de API 1 10
Número máximo de solicitudes por minuto

Los límites de velocidad actuales para el audio en tiempo real (gpt-4o-realtime-preview) se definen como el número de conexiones websocket nuevas por minuto. Por ejemplo, 6 solicitudes por minuto (RPM) significan 6 nuevas conexiones por minuto. En este momento, los límites de uso de gpt-4o-realtime-preview son adecuados para pruebas y desarrollo.
6 nuevas conexiones por minuto

1 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que da lugar a errores HTTP 431. No hay solución para este error, salvo reducir el volumen de la cabecera. En futuras versiones de API ya no pasaremos por encabezados personalizados. Recomendamos a los clientes que no dependan de encabezados personalizados en futuras arquitecturas de sistemas.

Límites de cuota regionales

Region o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo: GlobalStandard GPT-4o - Global-Batch GPT-4o-mini - Global-Batch GPT-4 - Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - finetune GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 000 80 000 80 000 30 K - - 300 000 - - - 30 M 50 M 2 M - - - - - 350 000 - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 000 - - - - - - - - - - - -
canadaeast - - 40 000 80 000 80 000 - - - 300 000 - - - 30 M 50 M 2 M - - - - - 350 000 350 000 350 000 - - - - - - - - - -
estado 1 M 600 mil - - 80 000 - 1 M 2 M 240 000 240 000 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 000 350 000 350 000 - - - - - - - - - -
eastus2 1 M 600 mil - - 80 000 - 1 M 2 M 300 000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350 000 350 000 350 000 250 000 - - - - - - 250 000 250 000 250 000
francecentral - - 20 000 60 000 80 000 - - - 240 000 - - - 30 M 50 M 2 M - - - - - 240 000 - 350 000 - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 000 - - - 30 M 50 M 2 M - - - - - 350 000 350 000 350 000 - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 mil - - 80 000 - 1 M 2 M 300 000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350 000 - - 250 000 500.000 100 000 240 000 250 000 240 000 250 000 250 000 250 000 250 000
norwayeast - - - - 150 000 - - - - - - - 30 M 50 M 2 M - - - - - 350 000 - 350 000 - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 000 - - - - - - - - - - - -
southcentralus 1 M 600 mil - - 80 000 - 1 M 2 M 240 000 - 50 M 30 M 30 M 50 M 2 M - - - - - 240 000 - - - - - - - - - - - -
southindia - - - - 150 000 - - - 300 000 - - - 30 M 50 M 2 M - - - - - 350 000 - 350 000 - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
suecia central 1 M 600 mil 40 000 80 000 150 000 30 K 1 M 2 M 300 000 240 000 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 000 - 350 000 250 000 500.000 100 000 240 000 250 000 240 000 250 000 250 000 250 000 250 000
norte de suiza - - 40 000 80 000 - 30 K - - 300 000 - - - 30 M 50 M 2 M - - - - - 350 000 - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 000 - 250 000 250 000 250 000 250 000
uksouth - - - - 80 000 - - - 240 000 - - - 30 M 50 M 2 M - - - - - 350 000 - 350 000 - - - - - - - - - -
westeurope - - - - - - - - 240 000 - - - 30 M 50 M 2 M - - - - - 240 000 - - - - - - - - - - - -
westus 1 M 600 mil - - 80 000 30 K 1 M 2 M 300 000 - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 000 - - - - - - - - - - - -
westus3 1 M 600 mil - - 80 000 - 1 M 2 M 300 000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350 000 - 350 000 - - - - - - - - - -

Límites de lote globales

Nombre del límite Límite de valor
Número máximo de archivos por recurso 500
Tamaño máximo del archivo de entrada 200 MB
Número máximo de solicitudes por archivo 100 000

Cuota global por lotes

En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para procesar por lotes, se cuenta el número de tokens presentes en el archivo. Hasta que el trabajo por lotes alcance un estado de terminal, esos tokens contarán con el límite total de tokens en cola.

Modelo Contrato Enterprise Valor predeterminado Suscripciones basadas en tarjetas de crédito mensuales Suscripciones de MSDN Azure for Students, pruebas gratuitas
gpt-4o 5 B 200 M 50 M 90 K N/D
gpt-4o-mini 15 B 1 B 50 M 90 K N/D
gpt-4-turbo 300 M 80 M 40 M 90 K N/D
gpt-4 150 M 30 M 5 M 100 000 N/D
gpt-35-turbo 10 B 1 B 100 M 2 M 50 K

B = mil millones | M = millones | K = mil

o1-vista previa y o1-mini límites de tarifa

Importante

La proporción de RPM/TPM para la cuota con modelos de la serie o1 funciona de forma diferente a los modelos de finalizaciones de chat anteriores:

  • Modelos de chat anteriores: 1 unidad de capacidad = 6 RPM y 1000 TPM.
  • o1-preview: 1 unidad de capacidad = 1 RPM y 6000 TPM.
  • o1-mini: 1 unidad de capacidad = 1 RPM por 10 000 TPM.

Esto es especialmente importante para la implementación de modelos mediante programación, ya que este cambio en la relación RPM/TPM puede dar lugar a una asignación accidental de cuota si uno sigue suponiendo la relación de 1:1000 seguida de los modelos de finalización de chat anteriores.

Hay un problema conocido con la API de cuotas/usos donde se supone que la proporción anterior se aplica a los nuevos modelos de la serie o1. La API devuelve el número de capacidad base correcto, pero no aplica la proporción correcta para el cálculo preciso de TPM.

o1-vista previa y o1-mini estándar global

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
o1-preview Contrato Enterprise 30 M 5 000
o1-mini Contrato Enterprise 50 M 5 000
o1-preview Valor predeterminado 3 M 500
o1-mini Valor predeterminado 5 M 500

o1-vista previa y o1-mini estándar

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
o1-preview Contrato Enterprise 600 000 100
o1-mini Contrato Enterprise 1 M 100
o1-preview Valor predeterminado 300 000 50
o1-mini Valor predeterminado 500.000 50

gpt-4o & GPT-4 Turbo límites de frecuencia

gpt-4o y gpt-4o-mini, y gpt-4 (turbo-2024-04-09) tienen niveles de límite de velocidad con límites más altos para determinados tipos de clientes.

gpt-4o & GPT-4 Turbo estándar global

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
gpt-4o Contrato Enterprise 30 M 180 000
gpt-4o-mini Contrato Enterprise 50 M 300 000
gpt-4 (turbo-2024-04-09) Contrato Enterprise 2 M 12 000
gpt-4o Valor predeterminado 450 K 2,7 K
gpt-4o-mini Valor predeterminado 2 M 12 000
gpt-4 (turbo-2024-04-09) Valor predeterminado 450 K 2,7 K

M = millones | K = miles

Estándar de zona de datos gpt-4o

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
gpt-4o Contrato Enterprise 10 M 60 000
gpt-4o-mini Contrato Enterprise 20 millones 120 000
gpt-4o Valor predeterminado 300 000 1,8 K
gpt-4o-mini Valor predeterminado 1 M 6 K

M = millones | K = miles

GPT-4o estándar

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
gpt-4o Contrato Enterprise 1 M 6 K
gpt-4o-mini Contrato Enterprise 2 M 12 000
gpt-4o Valor predeterminado 150 000 900
gpt-4o-mini Valor predeterminado 450 K 2,7 K

M = millones | K = miles

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure, enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente’. De forma similar, las implementaciones estándar de zona de datos permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esto permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles sostenidos de uso podrían ver más variabilidad en la latencia de respuesta.

El Límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo y es el total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

Nota:

Los niveles de uso solo se aplican a los tipos de implementación estándar, estándar de zona de datos y estándar global. Los niveles de uso no se aplican a las implementaciones globales de procesamiento por lotes y aprovisionadas.

Estándar global GPT-4o, estándar de zona de datos y estándar

Modelo Niveles de uso al mes
gpt-4o 12 mil millones de tokens
gpt-4o-mini 85 mil millones de tokens

GPT-4 estándar

Modelo Niveles de uso al mes
gpt-4 + gpt-4-32k (todas las versiones) 6 mil millones

Otros tipos de oferta

Si la suscripción de Azure está vinculada a determinados tipos de ofertas los valores máximos de cuota son inferiores a los valores indicados en las tablas anteriores.

Nivel Límite de cuota en tokens por minuto (TPM)
Azure for Students, pruebas gratuitas 1 K (todos los modelos)
Suscripciones de MSDN Serie GPT 3.5 Turbo: 30 K
Serie GPT-4: 8 K
Suscripciones basadas en tarjetas de crédito mensuales 1 Serie GPT 3.5 Turbo: 30 K
Serie GPT-4: 8 K

1 Esto se aplica actualmente altipo de oferta 0003P

En Azure Portal puede ver qué tipo de oferta está asociado a su suscripción; para ello, vaya a la suscripción y compruebe el panel de información general de las suscripciones. El tipo de oferta corresponde al campo plan de la información general de la suscripción.

Procedimientos recomendados generales para permanecer dentro de los límites de frecuencia

Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:

  • Implemente lógica de reintento en la aplicación.
  • Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Prueba de diferentes patrones de aumento de carga
  • Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Cómo solicitar aumentos en las cuotas y límites predeterminados

Las solicitudes de aumento de cuota se pueden enviar desde la página Cuotas de Azure AI Studio. Debido a la alta demanda, se aceptan solicitudes de aumento de cuota y se rellenarán en el orden en que se reciben. Se da prioridad a los clientes que generan tráfico que consume la asignación de cuota existente y es posible que se deniegue la solicitud si no se cumple esta condición.

Para otros límites de frecuencia, enviar una solicitud de servicio.

Pasos siguientes

Explore cómo administrar la cuota de las implementaciones de Azure OpenAI. Más información sobre los modelos subyacentes que impulsan Azure OpenAI.