Cotas e limites do Serviço OpenAI do Azure

Artigo
01/30/2025

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite	Valor limite
Recursos do Azure OpenAI por região por assinatura do Azure	30
Limites de cota DALL-E 2 padrão	2 pedidos simultâneos
Limites de cota DALL-E 3 padrão	2 unidades de capacidade (6 pedidos por minuto)
Limites de cota padrão do Whisper	3 pedidos por minuto
Máximo de tokens de prompt por solicitação	Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure
Máximo de implantações padrão por recurso	32
Max implantações de modelo ajustadas	5
Número total de empregos de formação por recurso	100
Máximo de trabalhos de treinamento em execução simultânea por recurso	1
Máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (ajuste fino)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido)	720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas)	2 Mil Milhões
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados)	16 MB
Número máximo ou entradas na matriz com `/embeddings`	2048
Número máximo de `/chat/completions` mensagens	2048
Número máximo de `/chat/completions` funções	128
Número máximo de `/chat completions` ferramentas	128
Número máximo de unidades de taxa de transferência provisionadas por implantação	100.000
Máximo de arquivos por assistente/thread	10.000 ao usar a API ou o portal do Azure AI Foundry. No Azure OpenAI Studio o limite era 20.
Tamanho máximo do ficheiro para Assistentes & ajuste fino	512 MB 200 MB através do portal Azure AI Foundry
Tamanho máximo para todos os ficheiros carregados para Assistentes	100 GB
Limite de token de assistentes	Limite de 2.000.000 tokens
GPT-4o max imagens por solicitação (# de imagens na matriz de mensagens/histórico de conversas)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` tokens máximos padrão	16 Aumente o valor do `max_tokens` parâmetro para evitar respostas truncadas. Os tokens máximos GPT-4o têm como padrão 4096.
Número máximo de cabeçalhos personalizados em solicitações^{de API 1}	10
Limite de caracteres de mensagem	1048576
Tamanho da mensagem para arquivos de áudio	20 MB

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.

Limites regionais das quotas

País/Região	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-4O	GPT-4O-Mini	GPT-35-Turbo	GPT-35-Turbo-Instruir	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Lote Global	GPT-4o-mini - Lote Global	GPT-4 - Lote Global	GPT-4-Turbo - Lote Global	gpt-35-turbo - Lote Global	Incorporação de texto-Ada-002	incorporação de texto-3-pequeno	incorporação de texto-3-grande	GPT-4o - ajuste fino	GPT-4o-mini - ajuste fino	GPT-4 - ajuste fino	Babbage-002	Babbage-002 - ajuste fino	Davinci-002	Davinci-002 - ajuste fino	GPT-35-Turbo - ajuste fino	GPT-35-Turbo-1106 - ajuste fino	GPT-35-Turbo-0125 - ajuste fino
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 milh	600 K	-	-	80 K	-	1 milh	2 milh	240 K	240 K	50 milh	30 milh	30 milh	50 milh	2 milh	5 B	15 B	150 milh	300 milh	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 milh	600 K	-	-	80 K	-	1 milh	2 milh	300 K	-	50 milh	30 milh	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 mil	60 K	80 K	-	-	-	240 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 milh	600 K	-	-	80 K	-	1 milh	2 milh	300 K	-	50 milh	30 milh	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	-	250 K	500 K	100 mil	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
PolóniaCentral	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
E.U.A Centro-Sul	1 milh	600 K	-	-	80 K	-	1 milh	2 milh	240 K	-	50 milh	30 milh	30 milh	50 milh	2 milh	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
EspanhaCentral	-	-	-	-	-	-	-	-	-	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
suécia central	1 milh	600 K	40 K	80 K	150 K	30 K	1 milh	2 milh	300 K	240 K	50 milh	30 milh	30 milh	50 milh	2 milh	5 B	15 B	150 milh	300 milh	10 B	350 K	-	350 K	250 K	500 K	100 mil	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norte da suíça	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
Suíça Oeste	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 milh	50 milh	2 milh	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 milh	600 K	-	-	80 K	30 K	1 milh	2 milh	300 K	-	50 milh	30 milh	30 milh	50 milh	2 milh	5 B	15 B	150 milh	300 milh	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 milh	600 K	-	-	80 K	-	1 milh	2 milh	300 K	-	50 milh	30 milh	30 milh	50 milh	2 milh	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Limites de lote

Nome do limite	Valor limite
Máximo de arquivos por recurso	500
Tamanho máximo do arquivo de entrada	200 MB
Máximo de solicitações por arquivo	100.000

Quota de lotes

A tabela mostra o limite de cota de lote. Os valores de cota para lote global são representados em termos de tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado terminal, esses tokens contarão em relação ao seu limite total de tokens enfileirados.

Lote global

Modelo	Contrato Enterprise	Predefinido	Subscrições mensais baseadas em cartões de crédito	Assinaturas do MSDN	Azure para Estudantes, Versões Experimentais Gratuitas
`gpt-4o`	5 B	200 milh	50 milh	90 K	N/A
`gpt-4o-mini`	15 B	1 B	50 milh	90 K	N/A
`gpt-4-turbo`	300 milh	80 milh	40 milh	90 K	N/A
`gpt-4`	150 milh	30 milh	5 milh	100 mil	N/A
`gpt-35-turbo`	10 B	1 B	100 milh	2 milh	50 mil
`o3-mini`	15 B	1 B	50 milh	90 K	N/A

B = mil milhões | M = milhões | K = mil

Lote de zona de dados

Modelo	Contrato Enterprise	Predefinido	Subscrições mensais baseadas em cartões de crédito	Assinaturas do MSDN	Azure para Estudantes, Versões Experimentais Gratuitas
`gpt-4o`	500 milh	30 milh	30 milh	90 K	N/A
`gpt-4o-mini`	1,5 B	100 milh	50 milh	90 K	N/A

`o-series` limites tarifários

Importante

A proporção de RPM/TPM para cota com modelos da série o1 funciona de forma diferente dos modelos de conclusão de chat mais antigos:

Modelos de chat mais antigos: 1 unidade de capacidade = 6 RPM e 1.000 TPM.
o1 & o1-preview: 1 unidade de capacidade = 1 RPM e 6.000 TPM.
o3-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.
o1-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.

Isso é particularmente importante para a implantação de modelos programáticos, pois essa alteração na relação RPM/TPM pode resultar em subalocação acidental de cota se ainda se estiver assumindo a proporção 1:1000 seguida por modelos de conclusão de chat mais antigos.

Há um problema conhecido com a API de quota/usos, onde ela assume que a proporção antiga se aplica aos novos modelos da série o1. A API retorna o número de capacidade base correto, mas não aplica a proporção correta para o cálculo preciso do TPM.

`o-series` Norma Global

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`o3-mini`	Contrato Enterprise	50 milh	5 K
`o1` & `o1-preview`	Contrato Enterprise	30 milh	5 K
`o1-mini`	Contrato Enterprise	50 milh	5 K
`o3-mini`	Predefinido	5 milh	500
`o1` & `o1-preview`	Predefinido	3 milh	500
`o1-mini`	Predefinido	5 milh	500

o1-preview & o1-mini padrão

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`o1-preview`	Contrato Enterprise	600 K	100
`o1-mini`	Contrato Enterprise	1 milh	100
`o1-preview`	Predefinido	300 K	50
`o1-mini`	Predefinido	500 K	50

gpt-4o & GPT-4 Limites de taxa Turbo

gpt-4o e gpt-4o-mini, e gpt-4 (turbo-2024-04-09) têm níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

gpt-4o & GPT-4 Turbo padrão global

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	30 milh	180 K
`gpt-4o-mini`	Contrato Enterprise	50 milh	300 K
`gpt-4` (turbo-2024-04-09)	Contrato Enterprise	2 milh	12 K
`gpt-4o`	Predefinido	450 K	2,7 K
`gpt-4o-mini`	Predefinido	2 milh	12 K
`gpt-4` (turbo-2024-04-09)	Predefinido	450 K	2,7 K

M = milhões | K = mil

Padrão de zona de dados GPT-4O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	10 milh	60 K
`gpt-4o-mini`	Contrato Enterprise	20 milh	120 K
`gpt-4o`	Predefinido	300 K	1,8 K
`gpt-4o-mini`	Predefinido	1 milh	6 K

M = milhões | K = mil

Padrão GPT-4O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	1 milh	6 K
`gpt-4o-mini`	Contrato Enterprise	2 milh	12 K
`gpt-4o`	Predefinido	150 K	900
`gpt-4o-mini`	Predefinido	450 K	2,7 K

M = milhões | K = mil

Áudio GPT-4O

Os limites de taxa para cada gpt-4o implantação de modelo de áudio são 100K TPM e 1K RPM. Durante a visualização, o portal e as APIs do Azure AI Foundry podem mostrar incorretamente limites de taxa diferentes. Mesmo se você tentar definir um limite de taxa diferente, o limite de taxa real será de 100K TPM e 1K RPM.

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o-audio-preview`	Predefinido	450 K	1 K
`gpt-4o-realtime-preview`	Predefinido	800 K	1 K
`gpt-4o-mini-audio-preview`	Predefinido	2 milh	1 K
`gpt-4o-mini-realtime-preview`	Predefinido	800 K	1 K

M = milhões | K = mil

Níveis de utilização

As implantações padrão globais usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações padrão da zona de dados permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver maior variabilidade na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

Nota

As camadas de uso só se aplicam aos tipos de implantação padrão, padrão de zona de dados e padrão global. As camadas de uso não se aplicam a implantações globais em lote e taxa de transferência provisionada.

Padrão global GPT-4o, padrão de zona de dados, padrão &

Modelo	Níveis de uso por mês
`gpt-4o`	12 bilhões de tokens
`gpt-4o-mini`	85 bilhões de tokens

Padrão GPT-4

Modelo	Níveis de uso por mês
`gpt-4` + `gpt-4-32k` (todas as versões)	6 Mil Milhões

Outros tipos de oferta

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas acima.

Escalão de serviço	Limite de cota em tokens por minuto (TPM)
Azure para Estudantes, Versões Experimentais Gratuitas	1 K (todos os modelos)
Assinaturas do MSDN	GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K
Subscrições ^{mensais baseadas em cartões de crédito 1}	GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K

1 Isto aplica-se atualmente ao tipo de oferta 0003P

No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral de assinaturas. O tipo de oferta corresponde ao campo do plano na visão geral da assinatura.

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição na aplicação.
Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste diferentes padrões de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos de cota

Os pedidos de aumento de quota podem ser apresentados através do formulário de pedido de aumento de quota. Devido à alta demanda, os pedidos de aumento de cota estão sendo aceitos e serão preenchidos na ordem em que forem recebidos. A prioridade é dada aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação pode ser negada se essa condição não for atendida.

Para outros limites de tarifa, envie uma solicitação de serviço.

Próximos passos

Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.

Partilhar via

Cotas e limites do Serviço OpenAI do Azure

Referência a quotas e limites

Limites regionais das quotas

Limites de lote

Quota de lotes

Lote global

Lote de zona de dados

`o-series` limites tarifários

`o-series` Norma Global

o1-preview & o1-mini padrão

gpt-4o & GPT-4 Limites de taxa Turbo

gpt-4o & GPT-4 Turbo padrão global

Padrão de zona de dados GPT-4O

Padrão GPT-4O

Áudio GPT-4O

Níveis de utilização

Padrão global GPT-4o, padrão de zona de dados, padrão &

Padrão GPT-4

Outros tipos de oferta

Melhores práticas gerais para se manter dentro dos limites das taxas

Como solicitar aumentos de cota

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Cotas e limites do Serviço OpenAI do Azure

Referência a quotas e limites

Limites regionais das quotas

Limites de lote

Quota de lotes

Lote global

Lote de zona de dados

o-series limites tarifários

o-series Norma Global

o1-preview & o1-mini padrão

gpt-4o & GPT-4 Limites de taxa Turbo

gpt-4o & GPT-4 Turbo padrão global

Padrão de zona de dados GPT-4O

Padrão GPT-4O

Áudio GPT-4O

Níveis de utilização

Padrão global GPT-4o, padrão de zona de dados, padrão &

Padrão GPT-4

Outros tipos de oferta

Melhores práticas gerais para se manter dentro dos limites das taxas

Como solicitar aumentos de cota

Próximos passos

Comentários

Recursos adicionais

`o-series` limites tarifários

`o-series` Norma Global