Limity przydziału i limity usługi Azure OpenAI
Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:
Nazwa limitu | Wartość limitu |
---|---|
Zasoby usługi Azure OpenAI na region na subskrypcję platformy Azure | 30 |
Domyślne limity przydziału DALL-E 2 | 2 współbieżne żądania |
Domyślne limity przydziału DALL-E 3 | 2 jednostki pojemności (6 żądań na minutę) |
Domyślne limity przydziału szeptu | 3 żądania na minutę |
Maksymalna liczba tokenów monitu na żądanie | Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service |
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób | 32 |
Maksymalne dostosowane wdrożenia modelu | 5 |
Łączna liczba zadań szkoleniowych na zasób | 100 |
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób | 1 |
Maksymalna liczba zadań szkoleniowych w kolejce | 20 |
Maksymalna liczba plików na zasób (dostrajanie) | 50 |
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) | 1 GB |
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) | 720 godzin |
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) | 2 miliardy |
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) | 16 MB |
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings |
2048 |
Maksymalna liczba komunikatów /chat/completions |
2048 |
Maksymalna liczba /chat/completions funkcji |
128 |
Maksymalna liczba /chat completions narzędzi |
128 |
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie | 100 000 |
Maksymalna liczba plików na asystenta/wątek | 10 000 w przypadku korzystania z interfejsu API lub portalu usługi Azure AI Foundry. W usłudze Azure OpenAI Studio limit wynosił 20. |
Maksymalny rozmiar pliku asystentów i dostrajanie | 512 MB 200 MB za pośrednictwem portalu azure AI Foundry |
Maksymalny rozmiar wszystkich przekazanych plików asystentów | 100 GB |
Limit tokenów asystentów | Limit tokenu 2 000 000 |
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) | 50 |
Domyślne tokeny maksymalne GPT-4 i GPT-4 vision-preview turbo-2024-04-09 |
16 Zwiększ wartość parametru, max_tokens aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096. |
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 | 10 |
Maksymalna liczba żądań na minutę Bieżące limity szybkości dla dźwięku w czasie rzeczywistym ( gpt-4o-realtime-preview ) są definiowane jako liczba nowych połączeń protokołu Websocket na minutę. Na przykład 100 żądań na minutę (RPM) oznacza 100 nowych połączeń na minutę. |
100 nowych połączeń na minutę |
1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.
Regionalne limity przydziału
Region (Region) | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Poinstruuj | o1-mini — GlobalStandard | o1 — GlobalStandard | gpt-4o — GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o — Global-Batch | GPT-4o-mini — Global-Batch | GPT-4 — Global-Batch | GPT-4-Turbo — Global-Batch | gpt-35-turbo - Global-Batch | Osadzanie tekstu-Ada-002 | osadzanie tekstu — 3 małe | osadzanie tekstu —3 — duże | GPT-4o - dostrajanie | GPT-4o-mini - finetune | GPT-4 - grzywna | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - dostrajanie | GPT-35-Turbo-1106 - grzywna | GPT-35-Turbo-0125 - grzywna |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 tys. | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 tys. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
hiszpaniacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 tys. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
szwajcariawest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Globalne limity partii
Nazwa limitu | Wartość limitu |
---|---|
Maksymalna liczba plików na zasób | 500 |
Maksymalny rozmiar pliku wejściowego | 200 MB |
Maksymalna liczba żądań na plik | 100 000 |
Globalny limit przydziału partii
W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.
Model | Umowa Enterprise Agreement | Wartość domyślna | Miesięczne subskrypcje oparte na kartach kredytowych | Subskrypcje MSDN | Azure for Students, bezpłatne wersje próbne |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | Nie dotyczy |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 K | Nie dotyczy |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | Nie dotyczy |
gpt-4 |
150 M | 30 M | 5 M | 100 tys. | Nie dotyczy |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 M | 50 tys. |
B = miliard | M = milion | K = tysiąc
o1 i o1-mini limity szybkości
Ważne
Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:
- Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
- o1 i o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
- o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.
Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.
Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.
o1 i o1-mini globalny standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
o1 & o1-preview |
Umowa Enterprise Agreement | 30 M | 5 K |
o1-mini |
Umowa Enterprise Agreement | 50 M | 5 K |
o1 & o1-preview |
Wartość domyślna | 3 M | 500 |
o1-mini |
Wartość domyślna | 5 M | 500 |
o1-preview i o1-mini standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
o1-preview |
Umowa Enterprise Agreement | 600 K | 100 |
o1-mini |
Umowa Enterprise Agreement | 1 M | 100 |
o1-preview |
Wartość domyślna | 300 K | 50 |
o1-mini |
Wartość domyślna | 500 K | 50 |
gpt-4o i GPT-4 Turbo limity szybkości
gpt-4o
i gpt-4o-mini
(gpt-4
turbo-2024-04-09
) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.
gpt-4o i GPT-4 Turbo globalny standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 30 M | 180 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Umowa Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Wartość domyślna | 450 K | 2,7 K |
gpt-4o-mini |
Wartość domyślna | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Wartość domyślna | 450 K | 2,7 K |
M = milion | K = tysiąc
gpt-4o standard strefy danych
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 10 M | 60 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 20 mln | 120 K |
gpt-4o |
Wartość domyślna | 300 K | 1,8 K |
gpt-4o-mini |
Wartość domyślna | 1 M | 6 K |
M = milion | K = tysiąc
gpt-4o standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 1 M | 6 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Wartość domyślna | 150 K | 900 |
gpt-4o-mini |
Wartość domyślna | 450 K | 2,7 K |
M = milion | K = tysiąc
Warstwy użycia
Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
Uwaga
Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.
Globalny standard GPT-4o, standard strefy danych i standard
Model | Warstwy użycia miesięcznie |
---|---|
gpt-4o |
12 Miliardów tokenów |
gpt-4o-mini |
85 Miliardów tokenów |
Standard GPT-4
Model | Warstwy użycia miesięcznie |
---|---|
gpt-4 + gpt-4-32k (wszystkie wersje) |
6 miliardów |
Inne typy ofert
Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.
Warstwa | Limit przydziału w tokenach na minutę (TPM) |
---|---|
Azure for Students, bezpłatne wersje próbne | 1 K (wszystkie modele) |
Subskrypcje MSDN | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
Miesięczne subskrypcje oparte na kartach kredytowych 1 | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
1 Dotyczy to obecnie typu oferty 0003P
W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Testuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Jak zażądać zwiększenia limitu przydziału
Żądania zwiększenia limitu przydziału można przesłać za pośrednictwem formularza żądania zwiększenia limitu przydziału. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i będą wypełniane w kolejności ich odebrania. Priorytet jest przydzielany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.
W przypadku innych limitów szybkości prześlij żądanie obsługi.
Następne kroki
Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.