Limity przydziału i limity usługi Azure OpenAI
Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:
Nazwa limitu | Wartość limitu |
---|---|
Zasoby openAI na region na subskrypcję platformy Azure | 30 |
Domyślne limity przydziału DALL-E 2 | 2 współbieżne żądania |
Domyślne limity przydziału DALL-E 3 | 2 jednostki pojemności (6 żądań na minutę) |
Domyślne limity przydziału szeptu | 3 żądania na minutę |
Maksymalna liczba tokenów monitu na żądanie | Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service |
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób | 32 |
Maksymalne dostosowane wdrożenia modelu | 5 |
Łączna liczba zadań szkoleniowych na zasób | 100 |
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób | 1 |
Maksymalna liczba zadań szkoleniowych w kolejce | 20 |
Maksymalna liczba plików na zasób (dostrajanie) | 50 |
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) | 1 GB |
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) | 720 godzin |
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) | 2 miliardy |
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) | 16 MB |
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings |
2048 |
Maksymalna liczba komunikatów /chat/completions |
2048 |
Maksymalna liczba /chat/completions funkcji |
128 |
Maksymalna liczba /chat completions narzędzi |
128 |
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie | 100 000 |
Maksymalna liczba plików na asystenta/wątek | 10 000 w przypadku korzystania z interfejsu API lub programu AI Studio. 20 w przypadku korzystania z programu Azure OpenAI Studio. |
Maksymalny rozmiar pliku asystentów i dostrajanie | 512 MB |
Maksymalny rozmiar wszystkich przekazanych plików asystentów | 100 GB |
Limit tokenów asystentów | Limit tokenu 2 000 000 |
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) | 50 |
Domyślne tokeny maksymalne GPT-4 i GPT-4 vision-preview turbo-2024-04-09 |
16 Zwiększ wartość parametru, max_tokens aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096. |
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 | 10 |
Maksymalna liczba żądań na minutę Bieżące limity szybkości dla dźwięku w czasie rzeczywistym ( gpt-4o-realtime-preview ) są definiowane jako liczba nowych połączeń protokołu Websocket na minutę. Na przykład 6 żądań na minutę (RPM) oznacza 6 nowych połączeń na minutę. Obecnie limity użycia dla gpt-4o-realtime-preview programu są odpowiednie do testowania i programowania. |
6 nowych połączeń na minutę |
1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.
Regionalne limity przydziału
Region (Region) | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Poinstruuj | o1-mini — GlobalStandard | o1 — GlobalStandard | gpt-4o — GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o — Global-Batch | GPT-4o-mini — Global-Batch | GPT-4 — Global-Batch | GPT-4-Turbo — Global-Batch | gpt-35-turbo - Global-Batch | Osadzanie tekstu-Ada-002 | osadzanie tekstu — 3 małe | osadzanie tekstu —3 — duże | GPT-4o - dostrajanie | GPT-4o-mini - finetune | GPT-4 - grzywna | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - dostrajanie | GPT-35-Turbo-1106 - grzywna | GPT-35-Turbo-0125 - grzywna |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 tys. | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 tys. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
hiszpaniacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 tys. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
szwajcariawest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Globalne limity partii
Nazwa limitu | Wartość limitu |
---|---|
Maksymalna liczba plików na zasób | 500 |
Maksymalny rozmiar pliku wejściowego | 200 MB |
Maksymalna liczba żądań na plik | 100 000 |
Globalny limit przydziału partii
W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.
Model | Umowa Enterprise Agreement | Wartość domyślna | Miesięczne subskrypcje oparte na kartach kredytowych | Subskrypcje MSDN | Azure for Students, bezpłatne wersje próbne |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | Nie dotyczy |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 K | Nie dotyczy |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | Nie dotyczy |
gpt-4 |
150 M | 30 M | 5 M | 100 tys. | Nie dotyczy |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 M | 50 tys. |
B = miliard | M = milion | K = tysiąc
O1-preview i o1-mini limity szybkości
Ważne
Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:
- Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
- o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
- o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.
Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.
Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.
o1-preview i o1-mini globalny standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
o1-preview |
Umowa Enterprise Agreement | 30 M | 5 K |
o1-mini |
Umowa Enterprise Agreement | 50 M | 5 K |
o1-preview |
Wartość domyślna | 3 M | 500 |
o1-mini |
Wartość domyślna | 5 M | 500 |
o1-preview i o1-mini standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
o1-preview |
Umowa Enterprise Agreement | 600 K | 100 |
o1-mini |
Umowa Enterprise Agreement | 1 M | 100 |
o1-preview |
Wartość domyślna | 300 K | 50 |
o1-mini |
Wartość domyślna | 500 K | 50 |
gpt-4o i GPT-4 Turbo limity szybkości
gpt-4o
i gpt-4o-mini
(gpt-4
turbo-2024-04-09
) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.
gpt-4o i GPT-4 Turbo globalny standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 30 M | 180 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Umowa Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Wartość domyślna | 450 K | 2,7 K |
gpt-4o-mini |
Wartość domyślna | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Wartość domyślna | 450 K | 2,7 K |
M = milion | K = tysiąc
gpt-4o standard strefy danych
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 10 M | 60 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 20 mln | 120 K |
gpt-4o |
Wartość domyślna | 300 K | 1,8 K |
gpt-4o-mini |
Wartość domyślna | 1 M | 6 K |
M = milion | K = tysiąc
gpt-4o standard
Model | Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|---|
gpt-4o |
Umowa Enterprise Agreement | 1 M | 6 K |
gpt-4o-mini |
Umowa Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Wartość domyślna | 150 K | 900 |
gpt-4o-mini |
Wartość domyślna | 450 K | 2,7 K |
M = milion | K = tysiąc
Warstwy użycia
Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
Uwaga
Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.
Globalny standard GPT-4o, standard strefy danych i standard
Model | Warstwy użycia miesięcznie |
---|---|
gpt-4o |
12 Miliardów tokenów |
gpt-4o-mini |
85 Miliardów tokenów |
Standard GPT-4
Model | Warstwy użycia miesięcznie |
---|---|
gpt-4 + gpt-4-32k (wszystkie wersje) |
6 miliardów |
Inne typy ofert
Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.
Warstwa | Limit przydziału w tokenach na minutę (TPM) |
---|---|
Azure for Students, bezpłatne wersje próbne | 1 K (wszystkie modele) |
Subskrypcje MSDN | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
Miesięczne subskrypcje oparte na kartach kredytowych 1 | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
1 Dotyczy to obecnie typu oferty 0003P
W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Testuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Jak zażądać zwiększenia domyślnych przydziałów i limitów
Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure AI Studio. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i będą wypełniane w kolejności ich odebrania. Priorytet jest przydzielany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.
W przypadku innych limitów szybkości prześlij żądanie obsługi.
Następne kroki
Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.