Quotas et limites d’inférence de modèle Azure AI dans Azure AI services
Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’inférence de modèle Azure AI dans Azure AI services. Pour connaître les quotas et les limites spécifiques à Azure OpenAI Service, consultez Quota et limites dans le service Azure OpenAI.
Informations de référence sur les quotas et les limites
Les sections suivantes vous fournissent un guide rapide sur les quotas et limites par défaut qui s’appliquent au service d’inférence de modèle Azure AI dans Azure AI services :
Limites des ressources
Nom de la limite | Valeur limite |
---|---|
Ressources Azure AI Services par région par abonnement Azure | 30 |
Nombre maximal de déploiements par ressources | 32 |
Limites de débit
Nom de la limite | Valeur limite |
---|---|
Jetons par minute (modèles Azure OpenAI) | Varie selon le modèle et la référence SKU. Consultez les limites d’Azure OpenAI. |
Jetons par minute (autres modèles) | 200 000 |
Demandes par minute (modèles Azure OpenAI) | Varie selon le modèle et la référence SKU. Consultez les limites d’Azure OpenAI. |
Demandes par minute (autres modèles) | 1 000 |
Autres limites
Nom de la limite | Valeur limite |
---|---|
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API1 | 10 |
1 Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés qui sont passés via le pipeline et retournés. Nous avons remarqué que certains clients dépassent désormais ce nombre d’en-têtes, ce qui provoque des erreurs HTTP 431. Il n’existe aucune solution à cette erreur si ce n’est de réduire le volume des en-têtes. Dans les futures versions des API, nous ne passerons plus d’en-têtes personnalisés. Nous recommandons aux clients de ne pas dépendre des en-têtes personnalisés dans les futures architectures système.
Niveaux d’utilisation
Les déploiements standard globaux utilisent l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.
La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.
Meilleures pratiques générales pour rester dans les limites du débit
Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :
- Implémentez une logique de nouvelle tentative dans votre application.
- Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
- Testez différents modèles d’augmentation de la charge.
- Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.
Augmentations des demandes aux limites et quotas par défaut
Les demandes d’augmentation de quota peuvent être envoyées et évaluées à la demande. Envoyez une demande de service.
Étapes suivantes
- En savoir plus sur les modèles disponibles dans le service d’inférence de modèle Azure AI