Cotas e limites do Serviço OpenAI do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.
Referência de cotas e limites
As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:
Nome do limite | Valor do limite |
---|---|
Recursos do OpenAI por região na assinatura do Azure | 30 |
Limites de cota DALL-E 2 padrão | 2 solicitações simultâneas |
Limites de cota DALL-E 3 padrão | Duas unidades de capacidade (seis solicitações por minuto) |
Limites de cota padrão do Whisper | 3 solicitações por minuto |
Máximo de tokens de prompt por solicitação | Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure |
Máximo de implantações Standard por recurso | 32 |
Máximo de ajuste de implantações de modelo | 5 |
Número total de trabalhos de treinamento por recurso | 100 |
Máximo de trabalhos de treinamento simultâneos em execução por recurso | 1 |
Máximo de trabalhos de treinamento na fila | 20 |
Máximo de arquivos por recurso (ajuste fino) | 50 |
Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB |
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) | 720 horas |
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) | 2 bilhões |
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) | 16 MB |
Número máximo ou entradas na matriz com /embeddings |
2048 |
Número máximo de mensagens de /chat/completions |
2048 |
Número máximo de funções de /chat/completions |
128 |
Número máximo de ferramentas de /chat completions |
128 |
Número máximo de unidades de taxa de transferência Provisionadas por implantação | 100.000 |
Máximo de arquivos por Assistente/thread | 10.000 ao usar a API ou AI Foundry. 20 ao usar o Azure OpenAI Studio. |
Tamanho máximo do arquivo para Assistentes e ajuste fino | 512 MB |
Tamanho máximo para todos os arquivos carregados para Assistentes | 100 GB |
Limite de token de assistentes | Limite de token de 2.000.000 |
Máximo de imagens por solicitação do GPT-4o (n. de imagens no histórico da conversa/matriz de mensagens) | 50 |
Tokens máximos padrão do GPT-4 vision-preview e do GPT-4 turbo-2024-04-09 |
16 Aumente o valor do parâmetro max_tokens para evitar respostas truncadas. Os tokens máximos de GPT-4o são padrão para 4096. |
Número máximo de cabeçalhos personalizados nas solicitações de API1 | 10 |
Número máximo de solicitações por minuto Os limites de taxa atuais para áudio em tempo real ( gpt-4o-realtime-preview ) são definidos como o número de novas conexões WebSocket por minuto. Por exemplo, 6 RPM (solicitações por minuto) significa 6 novas conexões por minuto. Neste momento, os limites de uso para gpt-4o-realtime-preview são adequados para teste e desenvolvimento. |
6 novas conexões por minuto |
1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume de cabeçalho. Nas futuro versões da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados nas futuras arquiteturas do sistema.
Limites de cota regional
Region | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini – GlobalStandard | o1 – GlobalStandard | gpt-4o - GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o – Global-Batch | GPT-4o-mini - Global-Batch | GPT-4 – Global-Batch | GPT-4-Turbo – Global-Batch | gpt-35-turbo – Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o – ajuste fino | GPT-4o-mini – finetune | GPT-4 - finetune | Babbage-002 | Babbage-002 – ajuste fino | Davinci-002 | Davinci-002 – ajuste fino | GPT-35-Turbo – ajuste fino | GPT-35-Turbo-1106 – ajuste fino | GPT-35-Turbo-0125 – ajuste fino |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 mil | 80 mil | 80 mil | 30 K | - | - | 300 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 mil | 80 mil | 80 mil | - | - | - | 300 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | 350 mil | 350 mil | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 mil | - | 1 M | 2 M | 240 mil | 240 mil | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 mi | 300 mi | 10 bi | 240 mil | 350 mil | 350 mil | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 mil | - | 1 M | 2 M | 300 mil | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | 350 mil | 350 mil | 250 mil | - | - | - | - | - | - | 250 mil | 250 mil | 250 mil |
francecentral | - | - | 20 mil | 60 K | 80 mil | - | - | - | 240 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | 350 mil | 350 mil | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 mil | - | 1 M | 2 M | 300 mil | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | - | 250 mil | 500 K | 100 mil | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil |
norwayeast | - | - | - | - | 150 mil | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80 mil | - | 1 M | 2 M | 240 mil | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 mil | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 mil | - | - | - | 300 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 mil | 80 mil | 150 mil | 30 K | 1 M | 2 M | 300 mil | 240 mil | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 mi | 300 mi | 10 bi | 350 mil | - | 350 mil | 250 mil | 500 K | 100 mil | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil |
switzerlandnorth | - | - | 40 mil | 80 mil | - | 30 K | - | - | 300 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 mil | - | 250 mil | 250 mil | 250 mil | 250 mil |
uksouth | - | - | - | - | 80 mil | - | - | - | 240 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 mil | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 mil | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 mil | 30 K | 1 M | 2 M | 300 mil | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 mi | 300 mi | 10 bi | 350 mil | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 mil | - | 1 M | 2 M | 300 mil | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
Limites do lote global
Nome do limite | Valor do limite |
---|---|
Máximo de arquivos por recurso | 500 |
Tamanho máximo do arquivo de entrada | 200 MB |
Máximo de solicitações por arquivo | 100.000 |
Cota do lote global
A tabela mostra o limite de cota do lote. Os valores de cota para o lote global são representados em termos de tokens enfileirados. Ao enviar um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado de terminal, esses tokens contarão com o limite total de tokens enfileirados.
Modelar | Contrato Enterprise | Padrão | Assinaturas mensais baseadas em cartão de crédito | Assinaturas MSDN | Azure for Students, avaliações gratuitas |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 mil | N/D |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 mil | N/D |
gpt-4-turbo |
300 mi | 80 M | 40 mi | 90 mil | N/D |
gpt-4 |
150 mi | 30 M | 5 mi | 100 mil | N/D |
gpt-35-turbo |
10 bi | 1 B | 100 mi | 2 M | 50 mil |
B = bilhões | M = milhões | K = mil
o1-preview &o1-mini rate limits
Importante
A taxa de RPM/TPM para cota com modelos da série o1 funciona de forma diferente dos modelos de conclusão de chat mais antigos:
- Modelos de chat mais antigos: 1 unidade de capacidade = 6 RPM e 1.000 TPM.
- o1-preview: 1 unidade de capacidade = 1 RPM e 6.000 TPM.
- o1-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.
Isso é particularmente importante para a implantação de modelo programático, pois essa alteração na taxa de RPM/TPM pode resultar em acidental sob alocação de cota se ainda estiver assumindo a taxa de 1:1.000 seguida por modelos de conclusão de chat mais antigos.
Há um problema conhecido com a API de cota/usos em que ela pressupõe que a taxa antiga se aplica aos novos modelos da série o1. A API retorna o número de capacidade base correto, mas não aplica a taxa correta para o cálculo preciso do TPM.
o1-preview &o1-mini global standard
Modelar | Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|---|
o1-preview |
Contrato Enterprise | 30 M | 5 mil |
o1-mini |
Contrato Enterprise | 50 M | 5 mil |
o1-preview |
Padrão | 3 M | 500 |
o1-mini |
Padrão | 5 mi | 500 |
o1-preview &o1-mini standard
Modelar | Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|---|
o1-preview |
Contrato Enterprise | 600 K | 100 |
o1-mini |
Contrato Enterprise | 1 M | 100 |
o1-preview |
Padrão | 300 mil | 50 |
o1-mini |
Padrão | 500 K | 50 |
Limites de taxa do gpt-4o &GPT-4 Turbo
gpt-4o
e gpt-4o-mini
, e gpt-4
(turbo-2024-04-09
) têm níveis de limite de taxa com limites mais altos para alguns tipos de cliente.
Padrão global do gpt-4o &GPT-4 Turbo
Modelar | Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 30 M | 180 mil |
gpt-4o-mini |
Contrato Enterprise | 50 M | 300 mil |
gpt-4 (turbo-2024-04-09) |
Contrato Enterprise | 2 M | 12 mil |
gpt-4o |
Padrão | 450 K | 2,7 K |
gpt-4o-mini |
Padrão | 2 M | 12 mil |
gpt-4 (turbo-2024-04-09) |
Padrão | 450 K | 2,7 K |
M = milhão | K = mil
padrão de zona de dados gpt-4o
Modelar | Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 10 M | 60 K |
gpt-4o-mini |
Contrato Enterprise | 20 milhões | 120 mil |
gpt-4o |
Padrão | 300 mil | 1,8 mil |
gpt-4o-mini |
Padrão | 1 M | 6 mil |
M = milhão | K = mil
padrão gpt-4o
Modelar | Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|---|
gpt-4o |
Contrato Enterprise | 1 M | 6 mil |
gpt-4o-mini |
Contrato Enterprise | 2 M | 12 mil |
gpt-4o |
Padrão | 150 mil | 900 |
gpt-4o-mini |
Padrão | 450 K | 2,7 K |
M = milhão | K = mil
Camadas de uso
As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. De forma semelhante, as implantações padrão de zona de dados permitem aproveitar a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Os clientes com altos níveis sustentados de uso poderão observar mais variabilidade na latência de resposta.
O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.
Observação
As camadas de uso se aplicam somente aos tipos de implantação padrão, padrão de zona de dados e padrão global. Os níveis de uso não se aplicam a implantações globais de lote e taxa de transferência provisionada.
Padrão, padrão global do GPT-4o e padrão de zona de dados
Modelar | Camadas de serviço por mês |
---|---|
gpt-4o |
12 bilhões de tokens |
gpt-4o-mini |
85 bilhões de tokens |
Padrão GPT-4
Modelar | Camadas de serviço por mês |
---|---|
gpt-4 + gpt-4-32k (todas as versões) |
6 bilhões |
Outros tipos de ofertas
Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão menores do que os valores indicados nas tabelas acima.
Camada | Limite de cota em tokens por minuto (TPM) |
---|---|
Azure for Students, avaliações gratuitas | 1 K (todos os modelos) |
Assinaturas MSDN | GPT 3.5 Turbo Series: 30 K Série GPT-4: 8 K |
Assinaturas mensais baseadas em cartão de crédito 1 | GPT 3.5 Turbo Series: 30 K Série GPT-4: 8 K |
1 Isso se aplica atualmente ao tipo de oferta 0003P
No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral das assinaturas. O tipo de oferta corresponde ao campo de plano na visão geral da assinatura.
Práticas recomendadas gerais para permanecer dentro dos limites da taxa
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:
- Implemente a lógica de repetição no seu aplicativo.
- Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste padrões distintos de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Como solicitar aumentos para as cotas e limites padrão
As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure AI Foundry. Devido à grande demanda, os pedidos de aumento de cota estão sendo aceitos e serão atendidos na ordem em que forem recebidos. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.
Para outros limites de tarifas, envie uma solicitação de serviço.
Próximas etapas
Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.