Cotas e limites de inferência de modelo de IA do Azure nos serviços de IA do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para a inferência do modelo de IA do Azure nos serviços de IA do Azure. Para quotas e limites específicos do Serviço Azure OpenAI, consulte Quota e limites no serviço Azure OpenAI.
Referência a quotas e limites
As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure:
Limites de recursos
Nome do limite | Valor-limite |
---|---|
Recursos de serviços de IA do Azure por região por assinatura do Azure | 30 |
Máximo de implantações por recurso | 32 |
Limites de taxa
Nome do limite | Valor-limite |
---|---|
Tokens por minuto (modelos OpenAI do Azure) | Varia por modelo e SKU. Consulte limites para o Azure OpenAI. |
Tokens por minuto (resto dos modelos) | 200.000 |
Solicitações por minuto (modelos do Azure OpenAI) | Varia por modelo e SKU. Consulte limites para o Azure OpenAI. |
Pedidos por minuto (resto dos modelos) | 1000 |
Outros limites
Nome do limite | Valor-limite |
---|---|
Número máximo de cabeçalhos personalizados em solicitaçõesde API 1 | 10 |
1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.
Níveis de utilização
As implantações do Global Standard usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidades na latência de resposta.
O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.
Melhores práticas gerais para se manter dentro dos limites das taxas
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição na aplicação.
- Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste diferentes padrões de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Solicitar aumentos para as cotas e limites padrão
Os pedidos de aumento de quota podem ser submetidos e avaliados por pedido. Envie uma solicitação de serviço.
Próximos passos
- Saiba mais sobre os modelos disponíveis no serviço de inferência do modelo de IA do Azure