Partage via


Quotas et limites d’inférence de modèle Azure AI dans Azure AI services

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’inférence de modèle Azure AI dans Azure AI services. Pour connaître les quotas et les limites spécifiques à Azure OpenAI Service, consultez Quota et limites dans le service Azure OpenAI.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et limites par défaut qui s’appliquent au service d’inférence de modèle Azure AI dans Azure AI services :

Limites des ressources

Nom de la limite Valeur limite
Ressources Azure AI Services par région par abonnement Azure 30
Nombre maximal de déploiements par ressources 32

Limites de débit

Nom de la limite Valeur limite
Jetons par minute (modèles Azure OpenAI) Varie selon le modèle et la référence SKU. Consultez les limites d’Azure OpenAI.
Jetons par minute (autres modèles) 200 000
Demandes par minute (modèles Azure OpenAI) Varie selon le modèle et la référence SKU. Consultez les limites d’Azure OpenAI.
Demandes par minute (autres modèles) 1 000

Autres limites

Nom de la limite Valeur limite
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API1 10

1 Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés qui sont passés via le pipeline et retournés. Nous avons remarqué que certains clients dépassent désormais ce nombre d’en-têtes, ce qui provoque des erreurs HTTP 431. Il n’existe aucune solution à cette erreur si ce n’est de réduire le volume des en-têtes. Dans les futures versions des API, nous ne passerons plus d’en-têtes personnalisés. Nous recommandons aux clients de ne pas dépendre des en-têtes personnalisés dans les futures architectures système.

Niveaux d’utilisation

Les déploiements standard globaux utilisent l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez une logique de nouvelle tentative dans votre application.
  • Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
  • Testez différents modèles d’augmentation de la charge.
  • Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Augmentations des demandes aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées et évaluées à la demande. Envoyez une demande de service.

Étapes suivantes