Kvoter och gränser för Azure OpenAI-tjänsten

Artikel
01/30/2025

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI i Azure AI-tjänster.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:

Gränsnamn	Gränsvärde
Azure OpenAI-resurser per region per Azure-prenumeration	30
Standardgränser för DALL-E 2-kvoter	2 samtidiga begäranden
Standardgränser för DALL-E 3-kvoter	2 kapacitetsenheter (6 begäranden per minut)
Standardgränser för Whisper-kvoter	3 begäranden per minut
Maximalt antal prompttoken per begäran	Varierar per modell. Mer information finns i Azure OpenAI Service-modeller
Maximalt antal standarddistributioner per resurs	32
Maximalt antal finjusterade modelldistributioner	5
Totalt antal träningsjobb per resurs	100
Maximalt antal träningsjobb som körs samtidigt per resurs	1
Maximalt antal träningsjobb i kö	20
Maximalt antal filer per resurs (finjustering)	50
Total storlek för alla filer per resurs (finjustering)	1 GB
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids)	720 timmar
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker)	2 miljarder
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data)	16 MB
Maximalt antal eller indata i matrisen med `/embeddings`	2048
Maximalt antal `/chat/completions` meddelanden	2048
Maximalt antal `/chat/completions` funktioner	128
Maximalt antal `/chat completions` verktyg	128
Maximalt antal etablerade dataflödesenheter per distribution	100,000
Maximalt antal filer per assistent/tråd	10 000 när du använder API:et eller Azure AI Foundry-portalen. I Azure OpenAI Studio var gränsen 20.
Maximal filstorlek för assistenter och finjustering	512 MB 200 MB via Azure AI Foundry-portalen
Maximal storlek för alla uppladdade filer för assistenter	100 GB
Tokengräns för assistenter	2 000 000 tokengräns
GPT-4o max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` standard maxtoken	16 `max_tokens` Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096.
Maximalt antal anpassade rubriker i API-begäranden¹	10
Meddelandeteckengräns	1048576
Meddelandestorlek för ljudfiler	20 MB

¹ Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Regionala kvotgränser

Region	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 – GlobalStandard	gpt-4o – GlobalStandard	gpt-4o-mini – GlobalStandard	GPT-4-Turbo – GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini – Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo – Global-Batch	gpt-35-turbo – Global-Batch	Text-Inbäddning-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 – finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
Brasilien, södra	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Japan, östra	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polencentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
USA, södra centrala	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
Europa, västra	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Batchgränser

Gränsnamn	Gränsvärde
Maximalt antal filer per resurs	500
Maximal filstorlek för indata	200 MB
Maximalt antal begäranden per fil	100,000

Batchkvot

Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras när det gäller kodade token. När du skickar en fil för batchbearbetning räknas antalet token som finns i filen. Tills batchjobbet når ett terminaltillstånd räknas dessa token mot den totala tillåtna tokengränsen.

Global batch

Modell	Enterprise-avtal	Standardvärde	Månatliga kreditkortsbaserade prenumerationer	MSDN-prenumerationer	Azure for Students, kostnadsfria utvärderingsversioner
`gpt-4o`	5 B	200 M	50 M	90 K	Ej tillämpligt
`gpt-4o-mini`	15 B	1 B	50 M	90 K	Ej tillämpligt
`gpt-4-turbo`	300 M	80 M	40 M	90 K	Ej tillämpligt
`gpt-4`	150 M	30 M	5 M	100 K	Ej tillämpligt
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 K
`o3-mini`	15 B	1 B	50 M	90 K	Ej tillämpligt

B = miljarder | M = miljoner | K = tusen

Datazonsbatch

Modell	Enterprise-avtal	Standardvärde	Månatliga kreditkortsbaserade prenumerationer	MSDN-prenumerationer	Azure for Students, kostnadsfria utvärderingsversioner
`gpt-4o`	500 M	30 M	30 M	90 K	Ej tillämpligt
`gpt-4o-mini`	1,5 B	100 M	50 M	90 K	Ej tillämpligt

`o-series` hastighetsgränser

Viktigt!

Förhållandet mellan RPM/TPM för kvot med modeller i o1-serien fungerar annorlunda än äldre modeller för chattavslut:

Äldre chattmodeller: 1 kapacitetsenhet = 6 RPM och 1 000 TPM.
o1 &o1-preview: 1 kapacitetsenhet = 1 RPM och 6 000 TPM.
o3-mini: 1 kapacitetsenhet = 1 RPM per 10 000 TPM.
o1-mini: 1 kapacitetsenhet = 1 RPM per 10 000 TPM.

Detta är särskilt viktigt för programmatisk modelldistribution eftersom den här ändringen i RPM/TPM-förhållandet kan leda till oavsiktlig under allokering av kvot om man fortfarande antar förhållandet 1:1000 följt av äldre chattslutmodeller.

Det finns ett känt problem med API:et för kvot/användning där det förutsätter att det gamla förhållandet gäller för de nya modellerna i o1-serien. API:et returnerar rätt baskapacitetsnummer, men tillämpar inte rätt förhållande för korrekt beräkning av TPM.

`o-series` global standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`o3-mini`	Enterprise-avtal	50 M	5 K
`o1` & `o1-preview`	Enterprise-avtal	30 M	5 K
`o1-mini`	Enterprise-avtal	50 M	5 K
`o3-mini`	Standardvärde	5 M	500
`o1` & `o1-preview`	Standardvärde	3 M	500
`o1-mini`	Standardvärde	5 M	500

o1-preview &o1-mini standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`o1-preview`	Enterprise-avtal	600 K	100
`o1-mini`	Enterprise-avtal	1 M	100
`o1-preview`	Standardvärde	300 K	50
`o1-mini`	Standardvärde	500 K	50

gpt-4o & GPT-4 Turbo hastighetsgränser

gpt-4o och gpt-4o-mini, och gpt-4 (turbo-2024-04-09) har frekvensgränsnivåer med högre gränser för vissa kundtyper.

gpt-4o & GPT-4 Turbo global standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	30 M	180 K
`gpt-4o-mini`	Enterprise-avtal	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Enterprise-avtal	2 M	12 K
`gpt-4o`	Standardvärde	450 K	2,7 K
`gpt-4o-mini`	Standardvärde	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Standardvärde	450 K	2,7 K

M = miljoner | K = tusen

gpt-4o-datazonstandard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	10 M	60 K
`gpt-4o-mini`	Enterprise-avtal	20 M	120 K
`gpt-4o`	Standardvärde	300 K	1,8 K
`gpt-4o-mini`	Standardvärde	1 M	6 K

M = miljoner | K = tusen

gpt-4o standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	1 M	6 K
`gpt-4o-mini`	Enterprise-avtal	2 M	12 K
`gpt-4o`	Standardvärde	150 K	900
`gpt-4o-mini`	Standardvärde	450 K	2,7 K

M = miljoner | K = tusen

gpt-4o-ljud

Hastighetsgränserna för varje gpt-4o distribution av ljudmodeller är 100 000 TPM och 1 000 RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns blir den faktiska hastighetsgränsen 100 000 TPM och 1 000 RPM.

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o-audio-preview`	Standardvärde	450 K	1 K
`gpt-4o-realtime-preview`	Standardvärde	800 K	1 K
`gpt-4o-mini-audio-preview`	Standardvärde	2 M	1 K
`gpt-4o-mini-realtime-preview`	Standardvärde	800 K	1 K

M = miljoner | K = tusen

Användningsnivåer

Globala standarddistributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt kan du använda azure global infrastruktur för att dynamiskt dirigera trafik till datacentret i den Microsoft-definierade datazonen med den bästa tillgängligheten för varje begäran. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.

Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Kommentar

Användningsnivåer gäller endast för standard-, datazonstandard- och globala standarddistributionstyper. Användningsnivåer gäller inte för distributioner av globalt batch- och etablerat dataflöde.

GPT-4o global standard, datazonstandard, &standard

Modell	Användningsnivåer per månad
`gpt-4o`	12 miljarder token
`gpt-4o-mini`	85 miljarder token

GPT-4 standard

Modell	Användningsnivåer per månad
`gpt-4` + `gpt-4-32k` (alla versioner)	6 miljarder

Andra erbjudandetyper

Om din Azure-prenumeration är länkad till vissa erbjudandetyper är maxkvotvärdena lägre än de värden som anges i tabellerna ovan.

Nivå	Kvotgräns i token per minut (TPM)
Azure for Students, kostnadsfria utvärderingsversioner	1 K (alla modeller)
MSDN-prenumerationer	GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K
Månatliga kreditkortsbaserade prenumerationer ¹	GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K

¹ Detta gäller för närvarande för erbjudandetyp 0003P

I Azure Portal kan du visa vilken erbjudandetyp som är associerad med din prenumeration genom att gå till prenumerationen och kontrollera översiktsfönstret för prenumerationer. Erbjudandetyp motsvarar planfältet i prenumerationsöversikten.

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

Implementera logik för omprövning i ditt program.
Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
Testa olika mönster för att öka belastningen.
Öka den kvot som tilldelats distributionen. Flytta kvoten från en annan distribution om det behövs.

Så här begär du kvotökningar

Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.

Skicka en tjänstbegäran för andra hastighetsgränser.

Nästa steg

Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.

Dela via

Kvoter och gränser för Azure OpenAI-tjänsten

Referens för kvoter och gränser

Regionala kvotgränser

Batchgränser

Batchkvot

Global batch

Datazonsbatch

`o-series` hastighetsgränser

`o-series` global standard

o1-preview &o1-mini standard

gpt-4o & GPT-4 Turbo hastighetsgränser

gpt-4o & GPT-4 Turbo global standard

gpt-4o-datazonstandard

gpt-4o standard

gpt-4o-ljud

Användningsnivåer

GPT-4o global standard, datazonstandard, &standard

GPT-4 standard

Andra erbjudandetyper

Allmänna metodtips för att hålla sig inom hastighetsgränser

Så här begär du kvotökningar

Nästa steg

Feedback

Ytterligare resurser

Dela via

Kvoter och gränser för Azure OpenAI-tjänsten

Referens för kvoter och gränser

Regionala kvotgränser

Batchgränser

Batchkvot

Global batch

Datazonsbatch

o-series hastighetsgränser

o-series global standard

o1-preview &o1-mini standard

gpt-4o & GPT-4 Turbo hastighetsgränser

gpt-4o & GPT-4 Turbo global standard

gpt-4o-datazonstandard

gpt-4o standard

gpt-4o-ljud

Användningsnivåer

GPT-4o global standard, datazonstandard, &standard

GPT-4 standard

Andra erbjudandetyper

Allmänna metodtips för att hålla sig inom hastighetsgränser

Så här begär du kvotökningar

Nästa steg

Feedback

Ytterligare resurser

`o-series` hastighetsgränser

`o-series` global standard