Compartilhar via


Cotas e limites de inferência de modelo de IA do Azure nos serviços de IA do Azure

Esse artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para inferência do modelo de IA do Azure nos serviços de IA do Azure. Para cotas e limites específicos do Serviço Azure OpenAI, veja Cota e limites no Serviço OpenAI do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure:

Limites de recursos

Nome do limite Valor do limite
Recursos do serviços de IA do Azure por região de assinatura do Azure 30
Máximo de implantações por recursos 32

Limitações de fluxo

Nome do limite Valor do limite
Tokens por minuto (modelos Azure OpenAI) Varia de acordo com o modelo e o SKU. Veja limites do Azure OpenAI.
Tokens por minuto (resto dos modelos) 200,000
Solicitações por minuto (modelos Azure OpenAI) Varia de acordo com o modelo e o SKU. Veja limites do Azure OpenAI.
Solicitações por minuto (resto dos modelos) 1.000

Outros limites

Nome do limite Valor do limite
Número máximo de cabeçalhos personalizados nas solicitações de API1 10

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes já excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume do cabeçalho. Nas futuro versões da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados nas futuras arquiteturas do sistema.

Camadas de uso

As implantações Global Standard usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Os clientes com altos níveis sustentados de uso poderão observar mais variabilidades na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

  • Implemente a lógica de repetição no seu aplicativo.
  • Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste padrões distintos de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Solicitar aumentos nas cotas e limites padrão

Solicitações de aumento de cota podem ser enviadas e avaliadas por solicitação. Enviar uma solicitação de serviço.

Próximas etapas