Limity przydziału i limity usługi Azure OpenAI

Artykuł
01/09/2025

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu	Wartość limitu
Zasoby usługi Azure OpenAI na region na subskrypcję platformy Azure	30
Domyślne limity przydziału DALL-E 2	2 współbieżne żądania
Domyślne limity przydziału DALL-E 3	2 jednostki pojemności (6 żądań na minutę)
Domyślne limity przydziału szeptu	3 żądania na minutę
Maksymalna liczba tokenów monitu na żądanie	Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób	32
Maksymalne dostosowane wdrożenia modelu	5
Łączna liczba zadań szkoleniowych na zasób	100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób	1
Maksymalna liczba zadań szkoleniowych w kolejce	20
Maksymalna liczba plików na zasób (dostrajanie)	50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie)	1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone)	720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok)	2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane)	16 MB
Maksymalna liczba lub dane wejściowe w tablicy z `/embeddings`	2048
Maksymalna liczba komunikatów `/chat/completions`	2048
Maksymalna liczba `/chat/completions` funkcji	128
Maksymalna liczba `/chat completions` narzędzi	128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie	100 000
Maksymalna liczba plików na asystenta/wątek	10 000 w przypadku korzystania z interfejsu API lub portalu usługi Azure AI Foundry. W usłudze Azure OpenAI Studio limit wynosił 20.
Maksymalny rozmiar pliku asystentów i dostrajanie	512 MB 200 MB za pośrednictwem portalu azure AI Foundry
Maksymalny rozmiar wszystkich przekazanych plików asystentów	100 GB
Limit tokenów asystentów	Limit tokenu 2 000 000
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji)	50
Domyślne tokeny maksymalne GPT-4 i GPT-4 `vision-preview` `turbo-2024-04-09`	16 Zwiększ wartość parametru, `max_tokens` aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniach^{interfejsu API 1}	10
Maksymalna liczba żądań na minutę Bieżące limity szybkości dla dźwięku w czasie rzeczywistym (`gpt-4o-realtime-preview`) są definiowane jako liczba nowych połączeń protokołu Websocket na minutę. Na przykład 100 żądań na minutę (RPM) oznacza 100 nowych połączeń na minutę.	100 nowych połączeń na minutę

¹ Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Regionalne limity przydziału

Region (Region)	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Poinstruuj	o1-mini — GlobalStandard	o1 — GlobalStandard	gpt-4o — GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o — Global-Batch	GPT-4o-mini — Global-Batch	GPT-4 — Global-Batch	GPT-4-Turbo — Global-Batch	gpt-35-turbo - Global-Batch	Osadzanie tekstu-Ada-002	osadzanie tekstu — 3 małe	osadzanie tekstu —3 — duże	GPT-4o - dostrajanie	GPT-4o-mini - finetune	GPT-4 - grzywna	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - dostrajanie	GPT-35-Turbo-1106 - grzywna	GPT-35-Turbo-0125 - grzywna
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 tys.	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 tys.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
hiszpaniacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 tys.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
szwajcariawest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Globalne limity partii

Nazwa limitu	Wartość limitu
Maksymalna liczba plików na zasób	500
Maksymalny rozmiar pliku wejściowego	200 MB
Maksymalna liczba żądań na plik	100 000

Globalny limit przydziału partii

W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.

Model	Umowa Enterprise Agreement	Wartość domyślna	Miesięczne subskrypcje oparte na kartach kredytowych	Subskrypcje MSDN	Azure for Students, bezpłatne wersje próbne
`gpt-4o`	5 B	200 M	50 M	90 K	Nie dotyczy
`gpt-4o-mini`	15 B	1 B	50 M	90 K	Nie dotyczy
`gpt-4-turbo`	300 M	80 M	40 M	90 K	Nie dotyczy
`gpt-4`	150 M	30 M	5 M	100 tys.	Nie dotyczy
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 tys.

B = miliard | M = milion | K = tysiąc

o1 i o1-mini limity szybkości

Ważne

Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:

Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
o1 i o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.

Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.

Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.

o1 i o1-mini globalny standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`o1` & `o1-preview`	Umowa Enterprise Agreement	30 M	5 K
`o1-mini`	Umowa Enterprise Agreement	50 M	5 K
`o1` & `o1-preview`	Wartość domyślna	3 M	500
`o1-mini`	Wartość domyślna	5 M	500

o1-preview i o1-mini standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`o1-preview`	Umowa Enterprise Agreement	600 K	100
`o1-mini`	Umowa Enterprise Agreement	1 M	100
`o1-preview`	Wartość domyślna	300 K	50
`o1-mini`	Wartość domyślna	500 K	50

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4oi gpt-4o-mini(gpt-4turbo-2024-04-09) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.

gpt-4o i GPT-4 Turbo globalny standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	30 M	180 K
`gpt-4o-mini`	Umowa Enterprise Agreement	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Umowa Enterprise Agreement	2 M	12 K
`gpt-4o`	Wartość domyślna	450 K	2,7 K
`gpt-4o-mini`	Wartość domyślna	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Wartość domyślna	450 K	2,7 K

M = milion | K = tysiąc

gpt-4o standard strefy danych

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	10 M	60 K
`gpt-4o-mini`	Umowa Enterprise Agreement	20 mln	120 K
`gpt-4o`	Wartość domyślna	300 K	1,8 K
`gpt-4o-mini`	Wartość domyślna	1 M	6 K

M = milion | K = tysiąc

gpt-4o standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	1 M	6 K
`gpt-4o-mini`	Umowa Enterprise Agreement	2 M	12 K
`gpt-4o`	Wartość domyślna	150 K	900
`gpt-4o-mini`	Wartość domyślna	450 K	2,7 K

M = milion | K = tysiąc

Warstwy użycia

Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Uwaga

Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.

Globalny standard GPT-4o, standard strefy danych i standard

Model	Warstwy użycia miesięcznie
`gpt-4o`	12 Miliardów tokenów
`gpt-4o-mini`	85 Miliardów tokenów

Standard GPT-4

Model	Warstwy użycia miesięcznie
`gpt-4` + `gpt-4-32k` (wszystkie wersje)	6 miliardów

Inne typy ofert

Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.

Warstwa	Limit przydziału w tokenach na minutę (TPM)
Azure for Students, bezpłatne wersje próbne	1 K (wszystkie modele)
Subskrypcje MSDN	Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K
Miesięczne subskrypcje oparte na kartach kredytowych ¹	Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K

¹ Dotyczy to obecnie typu oferty 0003P

W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

Zaimplementuj logikę ponawiania prób w aplikacji.
Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
Testuj różne wzorce zwiększania obciążenia.
Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia limitu przydziału

Żądania zwiększenia limitu przydziału można przesłać za pośrednictwem formularza żądania zwiększenia limitu przydziału. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i będą wypełniane w kolejności ich odebrania. Priorytet jest przydzielany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.

Udostępnij za pośrednictwem

Limity przydziału i limity usługi Azure OpenAI

Dokumentacja limitów przydziałów i limitów

Regionalne limity przydziału

Globalne limity partii

Globalny limit przydziału partii

o1 i o1-mini limity szybkości

o1 i o1-mini globalny standard

o1-preview i o1-mini standard

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4o i GPT-4 Turbo globalny standard

gpt-4o standard strefy danych

gpt-4o standard

Warstwy użycia

Globalny standard GPT-4o, standard strefy danych i standard

Standard GPT-4

Inne typy ofert

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Jak zażądać zwiększenia limitu przydziału

Następne kroki

Opinia

Dodatkowe zasoby