Udostępnij za pośrednictwem


Limity przydziału i limity usługi Azure OpenAI

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu Wartość limitu
Zasoby usługi Azure OpenAI na region na subskrypcję platformy Azure 30
Domyślne limity przydziału DALL-E 2 2 współbieżne żądania
Domyślne limity przydziału DALL-E 3 2 jednostki pojemności (6 żądań na minutę)
Domyślne limity przydziału szeptu 3 żądania na minutę
Maksymalna liczba tokenów monitu na żądanie Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób 32
Maksymalne dostosowane wdrożenia modelu 5
Łączna liczba zadań szkoleniowych na zasób 100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób 1
Maksymalna liczba zadań szkoleniowych w kolejce 20
Maksymalna liczba plików na zasób (dostrajanie) 50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) 1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) 720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) 2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) 16 MB
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings 2048
Maksymalna liczba komunikatów /chat/completions 2048
Maksymalna liczba /chat/completions funkcji 128
Maksymalna liczba /chat completions narzędzi 128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie 100 000
Maksymalna liczba plików na asystenta/wątek 10 000 w przypadku korzystania z interfejsu API lub portalu usługi Azure AI Foundry. W usłudze Azure OpenAI Studio limit wynosił 20.
Maksymalny rozmiar pliku asystentów i dostrajanie 512 MB

200 MB za pośrednictwem portalu azure AI Foundry
Maksymalny rozmiar wszystkich przekazanych plików asystentów 100 GB
Limit tokenów asystentów Limit tokenu 2 000 000
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) 50
Domyślne tokeny maksymalne GPT-4 i GPT-4 vision-preview turbo-2024-04-09 16

Zwiększ wartość parametru, max_tokens aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 10
Maksymalna liczba żądań na minutę

Bieżące limity szybkości dla dźwięku w czasie rzeczywistym (gpt-4o-realtime-preview) są definiowane jako liczba nowych połączeń protokołu Websocket na minutę. Na przykład 100 żądań na minutę (RPM) oznacza 100 nowych połączeń na minutę.
100 nowych połączeń na minutę

1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Regionalne limity przydziału

Region (Region) o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Poinstruuj o1-mini — GlobalStandard o1 — GlobalStandard gpt-4o — GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o — Global-Batch GPT-4o-mini — Global-Batch GPT-4 — Global-Batch GPT-4-Turbo — Global-Batch gpt-35-turbo - Global-Batch Osadzanie tekstu-Ada-002 osadzanie tekstu — 3 małe osadzanie tekstu —3 — duże GPT-4o - dostrajanie GPT-4o-mini - finetune GPT-4 - grzywna Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - dostrajanie GPT-35-Turbo-1106 - grzywna GPT-35-Turbo-0125 - grzywna
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 tys. 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 tys. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
hiszpaniacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 tys. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
szwajcariawest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Globalne limity partii

Nazwa limitu Wartość limitu
Maksymalna liczba plików na zasób 500
Maksymalny rozmiar pliku wejściowego 200 MB
Maksymalna liczba żądań na plik 100 000

Globalny limit przydziału partii

W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.

Model Umowa Enterprise Agreement Wartość domyślna Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure for Students, bezpłatne wersje próbne
gpt-4o 5 B 200 M 50 M 90 K Nie dotyczy
gpt-4o-mini 15 B 1 B 50 M 90 K Nie dotyczy
gpt-4-turbo 300 M 80 M 40 M 90 K Nie dotyczy
gpt-4 150 M 30 M 5 M 100 tys. Nie dotyczy
gpt-35-turbo 10 B 1 B 100 M 2 M 50 tys.

B = miliard | M = milion | K = tysiąc

o1 i o1-mini limity szybkości

Ważne

Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:

  • Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
  • o1 i o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
  • o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.

Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.

Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.

o1 i o1-mini globalny standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
o1 & o1-preview Umowa Enterprise Agreement 30 M 5 K
o1-mini Umowa Enterprise Agreement 50 M 5 K
o1 & o1-preview Wartość domyślna 3 M 500
o1-mini Wartość domyślna 5 M 500

o1-preview i o1-mini standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
o1-preview Umowa Enterprise Agreement 600 K 100
o1-mini Umowa Enterprise Agreement 1 M 100
o1-preview Wartość domyślna 300 K 50
o1-mini Wartość domyślna 500 K 50

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4oi gpt-4o-mini(gpt-4turbo-2024-04-09) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.

gpt-4o i GPT-4 Turbo globalny standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 30 M 180 K
gpt-4o-mini Umowa Enterprise Agreement 50 M 300 K
gpt-4 (turbo-2024-04-09) Umowa Enterprise Agreement 2 M 12 K
gpt-4o Wartość domyślna 450 K 2,7 K
gpt-4o-mini Wartość domyślna 2 M 12 K
gpt-4 (turbo-2024-04-09) Wartość domyślna 450 K 2,7 K

M = milion | K = tysiąc

gpt-4o standard strefy danych

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 10 M 60 K
gpt-4o-mini Umowa Enterprise Agreement 20 mln 120 K
gpt-4o Wartość domyślna 300 K 1,8 K
gpt-4o-mini Wartość domyślna 1 M 6 K

M = milion | K = tysiąc

gpt-4o standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 1 M 6 K
gpt-4o-mini Umowa Enterprise Agreement 2 M 12 K
gpt-4o Wartość domyślna 150 K 900
gpt-4o-mini Wartość domyślna 450 K 2,7 K

M = milion | K = tysiąc

Warstwy użycia

Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Uwaga

Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.

Globalny standard GPT-4o, standard strefy danych i standard

Model Warstwy użycia miesięcznie
gpt-4o 12 Miliardów tokenów
gpt-4o-mini 85 Miliardów tokenów

Standard GPT-4

Model Warstwy użycia miesięcznie
gpt-4 + gpt-4-32k (wszystkie wersje) 6 miliardów

Inne typy ofert

Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.

Warstwa Limit przydziału w tokenach na minutę (TPM)
Azure for Students, bezpłatne wersje próbne 1 K (wszystkie modele)
Subskrypcje MSDN Seria GPT 3.5 Turbo: 30 K
Seria GPT-4: 8 K
Miesięczne subskrypcje oparte na kartach kredytowych 1 Seria GPT 3.5 Turbo: 30 K
Seria GPT-4: 8 K

1 Dotyczy to obecnie typu oferty 0003P

W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Testuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia limitu przydziału

Żądania zwiększenia limitu przydziału można przesłać za pośrednictwem formularza żądania zwiększenia limitu przydziału. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i będą wypełniane w kolejności ich odebrania. Priorytet jest przydzielany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.