Cotas e limites de inferência de modelo de IA do Azure nos serviços de IA do Azure
Esse artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para inferência do modelo de IA do Azure nos serviços de IA do Azure. Para cotas e limites específicos do Serviço Azure OpenAI, veja Cota e limites no Serviço OpenAI do Azure.
Referência de cotas e limites
As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure:
Limites de recursos
Nome do limite | Valor do limite |
---|---|
Recursos do serviços de IA do Azure por região de assinatura do Azure | 30 |
Máximo de implantações por recursos | 32 |
Limitações de fluxo
Nome do limite | Valor do limite |
---|---|
Tokens por minuto (modelos Azure OpenAI) | Varia de acordo com o modelo e o SKU. Veja limites do Azure OpenAI. |
Tokens por minuto (resto dos modelos) | 200,000 |
Solicitações por minuto (modelos Azure OpenAI) | Varia de acordo com o modelo e o SKU. Veja limites do Azure OpenAI. |
Solicitações por minuto (resto dos modelos) | 1.000 |
Outros limites
Nome do limite | Valor do limite |
---|---|
Número máximo de cabeçalhos personalizados nas solicitações de API1 | 10 |
1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes já excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume do cabeçalho. Nas futuro versões da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados nas futuras arquiteturas do sistema.
Camadas de uso
As implantações Global Standard usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Os clientes com altos níveis sustentados de uso poderão observar mais variabilidades na latência de resposta.
O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.
Práticas recomendadas gerais para permanecer dentro dos limites da taxa
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:
- Implemente a lógica de repetição no seu aplicativo.
- Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste padrões distintos de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Solicitar aumentos nas cotas e limites padrão
Solicitações de aumento de cota podem ser enviadas e avaliadas por solicitação. Enviar uma solicitação de serviço.
Próximas etapas
- Saiba mais sobre os modelos disponíveis no serviço de inferência de modelo de IA do Azure