Udostępnij za pośrednictwem


Limity przydziału i limity usługi Azure OpenAI

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu Wartość limitu
Zasoby openAI na region na subskrypcję platformy Azure 30
Domyślne limity przydziału DALL-E 2 2 współbieżne żądania
Domyślne limity przydziału DALL-E 3 2 jednostki pojemności (6 żądań na minutę)
Domyślne limity przydziału szeptu 3 żądania na minutę
Maksymalna liczba tokenów monitu na żądanie Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób 32
Maksymalne dostosowane wdrożenia modelu 5
Łączna liczba zadań szkoleniowych na zasób 100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób 1
Maksymalna liczba zadań szkoleniowych w kolejce 20
Maksymalna liczba plików na zasób (dostrajanie) 50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) 1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) 720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) 2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) 16 MB
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings 2048
Maksymalna liczba komunikatów /chat/completions 2048
Maksymalna liczba /chat/completions funkcji 128
Maksymalna liczba /chat completions narzędzi 128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie 100 000
Maksymalna liczba plików na asystenta/wątek 10 000 w przypadku korzystania z interfejsu API lub programu AI Studio. 20 w przypadku korzystania z programu Azure OpenAI Studio.
Maksymalny rozmiar pliku asystentów i dostrajanie 512 MB
Maksymalny rozmiar wszystkich przekazanych plików asystentów 100 GB
Limit tokenów asystentów Limit tokenu 2 000 000
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) 50
Domyślne tokeny maksymalne GPT-4 i GPT-4 vision-preview turbo-2024-04-09 16

Zwiększ wartość parametru, max_tokens aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 10
Maksymalna liczba żądań na minutę

Bieżące limity szybkości dla dźwięku w czasie rzeczywistym (gpt-4o-realtime-preview) są definiowane jako liczba nowych połączeń protokołu Websocket na minutę. Na przykład 6 żądań na minutę (RPM) oznacza 6 nowych połączeń na minutę. Obecnie limity użycia dla gpt-4o-realtime-preview programu są odpowiednie do testowania i programowania.
6 nowych połączeń na minutę

1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Regionalne limity przydziału

Region (Region) o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Poinstruuj o1-mini — GlobalStandard o1 — GlobalStandard gpt-4o — GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o — Global-Batch GPT-4o-mini — Global-Batch GPT-4 — Global-Batch GPT-4-Turbo — Global-Batch gpt-35-turbo - Global-Batch Osadzanie tekstu-Ada-002 osadzanie tekstu — 3 małe osadzanie tekstu —3 — duże GPT-4o - dostrajanie GPT-4o-mini - finetune GPT-4 - grzywna Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - dostrajanie GPT-35-Turbo-1106 - grzywna GPT-35-Turbo-0125 - grzywna
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 tys. 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 tys. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
hiszpaniacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 tys. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
szwajcariawest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Globalne limity partii

Nazwa limitu Wartość limitu
Maksymalna liczba plików na zasób 500
Maksymalny rozmiar pliku wejściowego 200 MB
Maksymalna liczba żądań na plik 100 000

Globalny limit przydziału partii

W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.

Model Umowa Enterprise Agreement Wartość domyślna Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure for Students, bezpłatne wersje próbne
gpt-4o 5 B 200 M 50 M 90 K Nie dotyczy
gpt-4o-mini 15 B 1 B 50 M 90 K Nie dotyczy
gpt-4-turbo 300 M 80 M 40 M 90 K Nie dotyczy
gpt-4 150 M 30 M 5 M 100 tys. Nie dotyczy
gpt-35-turbo 10 B 1 B 100 M 2 M 50 tys.

B = miliard | M = milion | K = tysiąc

O1-preview i o1-mini limity szybkości

Ważne

Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:

  • Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
  • o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
  • o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.

Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.

Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.

o1-preview i o1-mini globalny standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
o1-preview Umowa Enterprise Agreement 30 M 5 K
o1-mini Umowa Enterprise Agreement 50 M 5 K
o1-preview Wartość domyślna 3 M 500
o1-mini Wartość domyślna 5 M 500

o1-preview i o1-mini standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
o1-preview Umowa Enterprise Agreement 600 K 100
o1-mini Umowa Enterprise Agreement 1 M 100
o1-preview Wartość domyślna 300 K 50
o1-mini Wartość domyślna 500 K 50

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4oi gpt-4o-mini(gpt-4turbo-2024-04-09) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.

gpt-4o i GPT-4 Turbo globalny standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 30 M 180 K
gpt-4o-mini Umowa Enterprise Agreement 50 M 300 K
gpt-4 (turbo-2024-04-09) Umowa Enterprise Agreement 2 M 12 K
gpt-4o Wartość domyślna 450 K 2,7 K
gpt-4o-mini Wartość domyślna 2 M 12 K
gpt-4 (turbo-2024-04-09) Wartość domyślna 450 K 2,7 K

M = milion | K = tysiąc

gpt-4o standard strefy danych

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 10 M 60 K
gpt-4o-mini Umowa Enterprise Agreement 20 mln 120 K
gpt-4o Wartość domyślna 300 K 1,8 K
gpt-4o-mini Wartość domyślna 1 M 6 K

M = milion | K = tysiąc

gpt-4o standard

Model Warstwa Limit przydziału w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Enterprise Agreement 1 M 6 K
gpt-4o-mini Umowa Enterprise Agreement 2 M 12 K
gpt-4o Wartość domyślna 150 K 900
gpt-4o-mini Wartość domyślna 450 K 2,7 K

M = milion | K = tysiąc

Warstwy użycia

Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Uwaga

Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.

Globalny standard GPT-4o, standard strefy danych i standard

Model Warstwy użycia miesięcznie
gpt-4o 12 Miliardów tokenów
gpt-4o-mini 85 Miliardów tokenów

Standard GPT-4

Model Warstwy użycia miesięcznie
gpt-4 + gpt-4-32k (wszystkie wersje) 6 miliardów

Inne typy ofert

Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.

Warstwa Limit przydziału w tokenach na minutę (TPM)
Azure for Students, bezpłatne wersje próbne 1 K (wszystkie modele)
Subskrypcje MSDN Seria GPT 3.5 Turbo: 30 K
Seria GPT-4: 8 K
Miesięczne subskrypcje oparte na kartach kredytowych 1 Seria GPT 3.5 Turbo: 30 K
Seria GPT-4: 8 K

1 Dotyczy to obecnie typu oferty 0003P

W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Testuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia domyślnych przydziałów i limitów

Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure AI Studio. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i będą wypełniane w kolejności ich odebrania. Priorytet jest przydzielany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.