Quotas et limites du service Azure OpenAI Service
Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.
Informations de référence sur les quotas et les limites
Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :
Nom de la limite | Limite de la valeur |
---|---|
Ressources OpenAI par région par abonnement Azure | 30 |
Limites de quota DALL-E 2 par défaut | 2 demandes simultanées |
Limites de quota DALL-E 3 par défaut | 2 unités de capacité (6 requêtes par minute) |
Limites de quota Whisper par défaut | 3 requêtes par minute |
Nombre maximal de jetons d’invite par requête | Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI |
Nombre maximal de déploiements Standard par ressource | 32 |
Déploiements de modèles ajustés maximum | 5 |
Nombre total de travaux de formation par ressource | 100 |
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource | 1 |
Nombre maximal de travaux de formation mis en file d’attente | 20 |
Nombre maximal de fichiers par ressource (réglage précis) | 50 |
Taille totale de tous les fichiers par ressource (réglage précis) | 1 Go |
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) | 720 heures |
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) | 2 milliard |
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) | 16 Mo |
Nombre maximal ou entrées dans le tableau avec /embeddings |
2048 |
Nombre maximal de messages /chat/completions |
2048 |
Nombre maximal de fonctions /chat/completions |
128 |
Nombre maximal d’outils /chat completions |
128 |
Nombre maximal d’unités de débit approvisionnées par déploiement | 100 000 |
Nombre maximal de fichiers par assistant/thread | 10 000 lors de l’utilisation de l’API ou d’AI Studio. 20 lors de l’utilisation d’Azure OpenAI Studio. |
Taille de fichier maximale pour Assistants et réglage précis | 512 Mo |
Taille maximale pour tous les fichiers chargés pour les assistants | 100 Go |
Limite de jetons assistants | Limite de 2 000 000 jetons |
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations) | 50 |
Nombre maximum par défaut de jetons GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Augmentez la valeur du paramètre max_tokens pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096. |
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API1 | 10 |
Nombre maximal de requêtes par minute Les limites de débit actuelles pour l’audio en temps réel ( gpt-4o-realtime-preview ) sont définies comme étant le nombre de nouvelles connexions WebSocket par minute. Par exemple, 6 requêtes par minute (RPM) signifie 6 nouvelles connexions par minute. Pour le moment, les limites d’utilisation pour gpt-4o-realtime-preview conviennent pour les tests et le développement. |
6 nouvelles connexions par minute |
1 Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés qui sont passés via le pipeline et retournés. Certains clients dépassent maintenant ce nombre d’en-têtes, ce qui provoque des erreurs HTTP 431. Il n’existe aucune solution à cette erreur si ce n’est de réduire le volume des en-têtes. Dans les futures versions des API, nous ne passerons plus d’en-têtes personnalisés. Nous recommandons aux clients de ne pas dépendre des en-têtes personnalisés dans les futures architectures système.
Limites de quota régionales
Région | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 - GlobalStandard | gpt-4o – GlobalStandard | gpt-4o-mini – GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o - Traitement par lots global | GPT-4o-mini – Global-Batch | GPT-4 – Traitement par lots global | GPT-4-Turbo – Traitement par lots global | GPT-35-Turbo – Traitement par lots global | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o – ajuster | GPT-4o-Mini – Ajustement | GPT-4 – finetune | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 m | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 m | 5 B | 15 o | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 m | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 K | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
KoreaCentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 m | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polognecentre | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 m | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 m | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
centre de la suède | 1 M | 600 K | 40 K | 80 K | 150 K | 30 000 | 1 M | 2 m | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 m | 5 B | 15 o | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
suisse nord | - | - | 40 K | 80 K | - | 30 000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 m | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 000 | 1 M | 2 m | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 m | 5 B | 15 o | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 m | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 m | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Limites du traitement par lots global
Nom de la limite | Limite de la valeur |
---|---|
Nombre maximal de fichiers par ressource | 500 |
Taille maximale de fichier d’entrée | 200 Mo |
Nombre maximal de requêtes par fichier | 100 000 |
Quota du traitement par lots global
Le tableau indique la limite de quota du traitement par lots. Les valeurs de quota pour le traitement par lots global sont représentées en termes de jetons empilés. Quand vous envoyez un fichier pour le traitement par lots, les jetons présents dans le fichier sont comptabilisés. Tant que le traitement par lots n’atteint pas un état terminal, ces jetons sont comptabilisés dans votre limite totale de jetons empilés.
Modèle | Contrat Entreprise | Par défaut | Abonnements mensuels basés sur une carte de crédit | Abonnements MSDN | Microsoft Azure for Students, essais gratuits |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | S/O |
gpt-4o-mini |
15 o | 1 o | 50 M | 90 K | S/O |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | S/O |
gpt-4 |
150 M | 30 M | 5 M | 100 K | S/O |
gpt-35-turbo |
10 B | 1 o | 100 M | 2 m | 50 K |
B = milliard | M = million | K = mille
Limites de débit o1-preview et o1-mini
Important
Le ratio RPM/TPM pour le quota avec les modèles de la série o1 fonctionne différemment des anciens modèles d’achèvement de la conversation :
- Anciens modèles de conversation : 1 unité de capacité = 6 RPM et 1 000 TPM.
- o1-preview : 1 unité de capacité = 1 RPM et 6 000 TPM.
- o1-mini : 1 unité de capacité = 1 RPM par 10 000 TPM.
Ceci est particulièrement important pour le déploiement de modèles programmatiques, car ce changement dans le ratio RPM/TPM peut entraîner une sous-allocation accidentelle de quotas si l’on suppose toujours le ratio 1:1000 suivi par les anciens modèles d’achèvement de conversation.
Il existe un problème connu avec l’API quota/utilisation qui suppose que l’ancien ratio s’applique aux nouveaux modèles de la série o1. L’API retourne le numéro de capacité de base correct, mais n’applique pas le ratio correct pour le calcul précis du TPM.
Standard global o1-preview et o1-mini
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
o1-preview |
Contrat Entreprise | 30 M | 5 K |
o1-mini |
Contrat Entreprise | 50 M | 5 K |
o1-preview |
Par défaut | 3 M | 500 |
o1-mini |
Par défaut | 5 M | 500 |
Standard o1-preview et o1-mini
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
o1-preview |
Contrat Entreprise | 600 K | 100 |
o1-mini |
Contrat Entreprise | 1 M | 100 |
o1-preview |
Par défaut | 300 K | 50 |
o1-mini |
Par défaut | 500 K | 50 |
Limitations de débit gpt-4o et GPT-4 Turbo
gpt-4o
et gpt-4o-mini
, et gpt-4
(turbo-2024-04-09
) ont des niveaux de limitation de débit avec des limites plus élevées pour certains types de clients.
Norme globale gpt-4o et GPT-4 Turbo
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
gpt-4o |
Contrat Entreprise | 30 M | 180 K |
gpt-4o-mini |
Contrat Entreprise | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Contrat Entreprise | 2 m | 12 K |
gpt-4o |
Par défaut | 450 K | 2,7 K |
gpt-4o-mini |
Par défaut | 2 m | 12 K |
gpt-4 (turbo-2024-04-09) |
Par défaut | 450 K | 2,7 K |
M = million | K = mille
standard de zone de données gpt-4o
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
gpt-4o |
Contrat Entreprise | 10 M | 60 K |
gpt-4o-mini |
Contrat Entreprise | 20 millions | 120 K |
gpt-4o |
Par défaut | 300 K | 1.8 K |
gpt-4o-mini |
Par défaut | 1 M | 6K |
M = million | K = mille
norme gpt-4o
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
gpt-4o |
Contrat Entreprise | 1 M | 6K |
gpt-4o-mini |
Contrat Entreprise | 2 m | 12 K |
gpt-4o |
Par défaut | 150 K | 900 |
gpt-4o-mini |
Par défaut | 450 K | 2,7 K |
M = million | K = mille
Niveaux d’utilisation
Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. De même, les déploiements Standard de zone de données vous permettent de tirer parti de l’infrastructure mondiale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.
La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.
Remarque
Les niveaux d’utilisation s’appliquent uniquement aux types de déploiement Standard, Standard de zone et Standard global. Le niveau d’utilisation ne s’applique pas aux déploiements à débit approvisionné et par lots globaux.
Standard global GPT-4o, Standard de zone de données, et Standard
Modèle | Niveaux d’utilisation par mois |
---|---|
gpt-4o |
12 milliards de jetons |
gpt-4o-mini |
85 milliards de jetons |
GPT-4 standard
Modèle | Niveaux d’utilisation par mois |
---|---|
gpt-4 + gpt-4-32k (toutes les versions) |
6 milliards |
Autres types d’offres
Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.
Niveau | Limite de quota en jetons par minute (TPM) |
---|---|
Microsoft Azure for Students, essais gratuits | 1 K (tous les modèles) |
Abonnements MSDN | Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K |
Abonnements mensuels basés sur des cartes de crédit 1 | Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K |
1 Ceci s’applique actuellement au type d’offre 0003P
Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.
Meilleures pratiques générales pour rester dans les limites du débit
Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :
- Implémentez une logique de nouvelle tentative dans votre application.
- Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
- Testez différents modèles d’augmentation de la charge.
- Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.
Comment demander des augmentations aux limites et quotas par défaut
Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure AI Studio. En raison d’une demande élevée, les demandes d’augmentation de quota sont acceptées et seront traitées dans l’ordre où elles sont reçues. La priorité est donnée aux clients qui génèrent du trafic consommant l’allocation de quota existante, et votre demande peut être refusée si cette condition n’est pas remplie.
Pour les autres limites de débit, envoyez une demande de service.
Étapes suivantes
Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.