Partilhar via


Cotas e limites de inferência de modelo de IA do Azure nos serviços de IA do Azure

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para a inferência do modelo de IA do Azure nos serviços de IA do Azure. Para quotas e limites específicos do Serviço Azure OpenAI, consulte Quota e limites no serviço Azure OpenAI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure:

Limites de recursos

Nome do limite Valor-limite
Recursos de serviços de IA do Azure por região por assinatura do Azure 30
Máximo de implantações por recurso 32

Limites de taxa

Nome do limite Valor-limite
Tokens por minuto (modelos OpenAI do Azure) Varia por modelo e SKU. Consulte limites para o Azure OpenAI.
Tokens por minuto (resto dos modelos) 200.000
Solicitações por minuto (modelos do Azure OpenAI) Varia por modelo e SKU. Consulte limites para o Azure OpenAI.
Pedidos por minuto (resto dos modelos) 1000

Outros limites

Nome do limite Valor-limite
Número máximo de cabeçalhos personalizados em solicitaçõesde API 1 10

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.

Níveis de utilização

As implantações do Global Standard usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidades na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

  • Implemente a lógica de repetição na aplicação.
  • Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste diferentes padrões de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Solicitar aumentos para as cotas e limites padrão

Os pedidos de aumento de quota podem ser submetidos e avaliados por pedido. Envie uma solicitação de serviço.

Próximos passos