Cotas e limites do Serviço OpenAI do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.
Referência a quotas e limites
As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:
Nome do limite | Valor limite |
---|---|
Recursos OpenAI por região por assinatura do Azure | 30 |
Limites de cota DALL-E 2 padrão | 2 pedidos simultâneos |
Limites de cota DALL-E 3 padrão | 2 unidades de capacidade (6 pedidos por minuto) |
Limites de cota padrão do Whisper | 3 pedidos por minuto |
Máximo de tokens de prompt por solicitação | Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure |
Máximo de implantações padrão por recurso | 32 |
Max implantações de modelo ajustadas | 5 |
Número total de empregos de formação por recurso | 100 |
Máximo de trabalhos de treinamento em execução simultânea por recurso | 1 |
Máximo de trabalhos de treinamento na fila | 20 |
Máximo de arquivos por recurso (ajuste fino) | 50 |
Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB |
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido) | 720 horas |
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas) | 2 Mil Milhões |
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados) | 16 MB |
Número máximo ou entradas na matriz com /embeddings |
2048 |
Número máximo de /chat/completions mensagens |
2048 |
Número máximo de /chat/completions funções |
128 |
Número máximo de /chat completions ferramentas |
128 |
Número máximo de unidades de taxa de transferência provisionadas por implantação | 100.000 |
Máximo de arquivos por assistente/thread | 10.000 ao usar a API ou o AI Studio. 20 ao usar o Azure OpenAI Studio. |
Tamanho máximo do ficheiro para Assistentes & ajuste fino | 512 MB |
Tamanho máximo para todos os ficheiros carregados para Assistentes | 100 GB |
Limite de token de assistentes | Limite de 2.000.000 tokens |
GPT-4o max imagens por solicitação (# de imagens na matriz de mensagens/histórico de conversas) | 10 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 tokens máximos padrão |
16 Aumente o valor do max_tokens parâmetro para evitar respostas truncadas. Os tokens máximos GPT-4o têm como padrão 4096. |
Número máximo de cabeçalhos personalizados em solicitaçõesde API 1 | 10 |
Número máximo de pedidos por minuto Os limites de taxa atuais para áudio em tempo real ( gpt-4o-realtime-preview ) são definidos como o número de novas conexões websocket por minuto. Por exemplo, 6 solicitações por minuto (RPM) significam 6 novas conexões por minuto. Neste momento, os limites de uso para gpt-4o-realtime-preview são adequados para teste e desenvolvimento. |
6 novas conexões por minuto |
1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.
Limites regionais das quotas
País/Região | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-4O | GPT-4O-Mini | GPT-35-Turbo | GPT-35-Turbo-Instruir | o1-mini - GlobalStandard | o1 - GlobalStandard | gpt-4o - GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o - Lote Global | GPT-4o-mini - Lote Global | GPT-4 - Lote Global | GPT-4-Turbo - Lote Global | gpt-35-turbo - Lote Global | Incorporação de texto-Ada-002 | incorporação de texto-3-pequeno | incorporação de texto-3-grande | GPT-4o - ajuste fino | GPT-4o-mini - ajuste fino | GPT-4 - ajuste fino | Babbage-002 | Babbage-002 - ajuste fino | Davinci-002 | Davinci-002 - ajuste fino | GPT-35-Turbo - ajuste fino | GPT-35-Turbo-1106 - ajuste fino | GPT-35-Turbo-0125 - ajuste fino |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 milh | 600 K | - | - | 80 K | - | 1 milh | 2 milh | 240 K | 240 K | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | 5 B | 15 B | 150 milh | 300 milh | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 milh | 600 K | - | - | 80 K | - | 1 milh | 2 milh | 300 K | - | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 mil | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 milh | 600 K | - | - | 80 K | - | 1 milh | 2 milh | 300 K | - | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 mil | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
PolóniaCentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
E.U.A Centro-Sul | 1 milh | 600 K | - | - | 80 K | - | 1 milh | 2 milh | 240 K | - | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
EspanhaCentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
suécia central | 1 milh | 600 K | 40 K | 80 K | 150 K | 30 K | 1 milh | 2 milh | 300 K | 240 K | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | 5 B | 15 B | 150 milh | 300 milh | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 mil | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norte da suíça | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
Suíça Oeste | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 milh | 600 K | - | - | 80 K | 30 K | 1 milh | 2 milh | 300 K | - | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | 5 B | 15 B | 150 milh | 300 milh | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 milh | 600 K | - | - | 80 K | - | 1 milh | 2 milh | 300 K | - | 50 milh | 30 milh | 30 milh | 50 milh | 2 milh | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Limites globais de lotes
Nome do limite | Valor limite |
---|---|
Máximo de arquivos por recurso | 500 |
Tamanho máximo do arquivo de entrada | 200 MB |
Máximo de solicitações por arquivo | 100.000 |
Quota global de lotes
A tabela mostra o limite de cota de lote. Os valores de cota para lote global são representados em termos de tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado terminal, esses tokens contarão em relação ao seu limite total de tokens enfileirados.
Modelo | Contrato Enterprise | Predefinido | Subscrições mensais baseadas em cartões de crédito | Assinaturas do MSDN | Azure para Estudantes, Versões Experimentais Gratuitas |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 milh | 50 milh | 90 K | N/A |
gpt-4o-mini |
15 B | 1 B | 50 milh | 90 K | N/A |
gpt-4-turbo |
300 milh | 80 milh | 40 milh | 90 K | N/A |
gpt-4 |
150 milh | 30 milh | 5 milh | 100 mil | N/A |
gpt-35-turbo |
10 B | 1 B | 100 milh | 2 milh | 50 mil |
B = mil milhões | M = milhões | K = mil
o1-preview & o1-mini limites de taxa
Importante
A proporção de RPM/TPM para cota com modelos da série o1 funciona de forma diferente dos modelos de conclusão de chat mais antigos:
- Modelos de chat mais antigos: 1 unidade de capacidade = 6 RPM e 1.000 TPM.
- o1-pré-visualização: 1 unidade de capacidade = 1 RPM e 6.000 TPM.
- o1-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.
Isso é particularmente importante para a implantação de modelos programáticos, pois essa alteração na relação RPM/TPM pode resultar em subalocação acidental de cota se ainda se estiver assumindo a proporção 1:1000 seguida por modelos de conclusão de chat mais antigos.
Há um problema conhecido com a API de quota/usos, onde ela assume que a proporção antiga se aplica aos novos modelos da série o1. A API retorna o número de capacidade base correto, mas não aplica a proporção correta para o cálculo preciso do TPM.
o1-preview & o1-mini padrão global
Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
---|---|---|---|
o1-preview |
Contrato Enterprise | 30 milh | 5 K |
o1-mini |
Contrato Enterprise | 50 milh | 5 K |
o1-preview |
Predefinido | 3 milh | 500 |
o1-mini |
Predefinido | 5 milh | 500 |
o1-preview & o1-mini padrão
Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
---|---|---|---|
o1-preview |
Contrato Enterprise | 600 K | 100 |
o1-mini |
Contrato Enterprise | 1 milh | 100 |
o1-preview |
Predefinido | 300 K | 50 |
o1-mini |
Predefinido | 500 K | 50 |
gpt-4o & GPT-4 Limites de taxa Turbo
gpt-4o
e gpt-4o-mini
, e gpt-4
(turbo-2024-04-09
) têm níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.
gpt-4o & GPT-4 Turbo padrão global
Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 30 milh | 180 K |
gpt-4o-mini |
Contrato Enterprise | 50 milh | 300 K |
gpt-4 (turbo-2024-04-09) |
Contrato Enterprise | 2 milh | 12 K |
gpt-4o |
Predefinido | 450 K | 2,7 K |
gpt-4o-mini |
Predefinido | 2 milh | 12 K |
gpt-4 (turbo-2024-04-09) |
Predefinido | 450 K | 2,7 K |
M = milhões | K = mil
Padrão de zona de dados GPT-4O
Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 10 milh | 60 K |
gpt-4o-mini |
Contrato Enterprise | 20 milh | 120 K |
gpt-4o |
Predefinido | 300 K | 1,8 K |
gpt-4o-mini |
Predefinido | 1 milh | 6 K |
M = milhões | K = mil
Padrão GPT-4O
Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 1 milh | 6 K |
gpt-4o-mini |
Contrato Enterprise | 2 milh | 12 K |
gpt-4o |
Predefinido | 150 K | 900 |
gpt-4o-mini |
Predefinido | 450 K | 2,7 K |
M = milhões | K = mil
Níveis de utilização
As implantações padrão globais usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações padrão da zona de dados permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidade na latência de resposta.
O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.
Nota
As camadas de uso só se aplicam aos tipos de implantação padrão, padrão de zona de dados e padrão global. As camadas de uso não se aplicam a implantações globais em lote e taxa de transferência provisionada.
Padrão global GPT-4o, padrão de zona de dados, padrão &
Modelo | Níveis de uso por mês |
---|---|
gpt-4o |
12 bilhões de tokens |
gpt-4o-mini |
85 bilhões de tokens |
Padrão GPT-4
Modelo | Níveis de uso por mês |
---|---|
gpt-4 + gpt-4-32k (todas as versões) |
6 Mil Milhões |
Outros tipos de oferta
Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas acima.
Escalão de serviço | Limite de cota em tokens por minuto (TPM) |
---|---|
Azure para Estudantes, Versões Experimentais Gratuitas | 1 K (todos os modelos) |
Assinaturas do MSDN | GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K |
Subscrições mensais baseadas em cartões de crédito 1 | GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K |
1 Isto aplica-se atualmente ao tipo de oferta 0003P
No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral de assinaturas. O tipo de oferta corresponde ao campo do plano na visão geral da assinatura.
Melhores práticas gerais para se manter dentro dos limites das taxas
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição na aplicação.
- Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste diferentes padrões de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Como solicitar aumentos para as cotas e limites padrão
As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure AI Studio. Devido à alta demanda, os pedidos de aumento de cota estão sendo aceitos e serão preenchidos na ordem em que forem recebidos. A prioridade é dada aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação pode ser negada se essa condição não for atendida.
Para outros limites de tarifa, envie uma solicitação de serviço.
Próximos passos
Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.