Kvóty a limity služby Azure OpenAI
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:
Název limitu | Omezit hodnotu |
---|---|
Prostředky OpenAI na oblast na předplatné Azure | 30 |
Výchozí limity kvót DALL-E 2 | 2 souběžné žádosti |
Výchozí limity kvót DALL-E 3 | 2 jednotky kapacity (6 požadavků za minutu) |
Výchozí limity kvót pro šeptaní | 3 žádosti za minutu |
Maximální počet tokenů výzvy na požadavek | Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service. |
Maximální počet standardních nasazení na prostředek | 32 |
Maximální jemně vyladěná nasazení modelu | 5 |
Celkový počet trénovacích úloh na prostředek | 100 |
Maximální počet souběžných spuštěných trénovacích úloh na prostředek | 0 |
Maximální počet trénovacích úloh zařazených do fronty | 20 |
Maximální počet souborů na prostředek (vyladění) | 50 |
Celková velikost všech souborů na prostředek (vyladění) | 1 GB |
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) | 720 hodin |
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) | 2 miliardy |
Max size of all files per upload (Azure OpenAI on your data) | 16 MB |
Maximální počet nebo vstupy v poli s /embeddings |
2048 |
Maximální počet /chat/completions zpráv |
2048 |
Maximální počet /chat/completions funkcí |
128 |
Maximální počet /chat completions nástrojů |
128 |
Maximální počet zřízených jednotek propustnosti na nasazení | 100 000 |
Maximální počet souborů na asistenta nebo vlákno | 10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio. |
Maximální velikost souboru pro asistenty a vyladění | 512 MB |
Maximální velikost všech nahraných souborů pro Asistenty | 100 GB |
Limit tokenů asistentů | 2 000 000 tokenů |
GpT-4o max images per request (# of images in the messages array/conversation history) | 50 |
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096. |
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 | 10 |
Maximální počet požadavků za minutu Aktuální omezení rychlosti zvuku v reálném čase ( gpt-4o-realtime-preview ) jsou definována jako počet nových připojení websocket za minutu. Například 6 požadavků za minutu (RPM) znamená 6 nových připojení za minutu. V tuto chvíli jsou limity gpt-4o-realtime-preview využití vhodné pro testování a vývoj. |
6 nových připojení za minutu |
1 Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku hlaviček. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.
Omezení kvót v jednotlivých oblastech
Oblast | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini – GlobalStandard | o1 – GlobalStandard | gpt-4o – GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o – Global-Batch | GPT-4o-mini - Global-Batch | GPT-4 – Global-Batch | GPT-4-Turbo - Global-Batch | gpt-35-turbo - Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - jemné ladění | GPT-4o-mini - jemné ladění | GPT-4 - jemné ladění | Babbage-002 | Babbage-002 - jemné ladění | Davinci-002 | Davinci-002 - jemné ladění | GPT-35-Turbo - jemné ladění | GPT-35-Turbo-1106 - jemné ladění | GPT-35-Turbo-0125 - jemné ladění |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 tis. | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Německo – středozápad | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 tis. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
Norsko – východ | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polskocentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
Jižní Afrika – sever | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
Střed USA – jih | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
španělskocentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 tis. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Globální limity dávek
Název limitu | Omezit hodnotu |
---|---|
Maximální počet souborů na prostředek | 500 |
Maximální velikost vstupního souboru | 200 MB |
Maximální počet požadavků na soubor | 100 000 |
Globální kvóta dávky
V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska vyčtených tokenů. Když odešlete soubor pro dávkové zpracování počtu tokenů, které jsou přítomné v souboru, se započítávají. Dokud dávková úloha nedosáhne stavu terminálu, tyto tokeny se započítávají do celkového limitu vyčíslených tokenů.
Model | Smlouva Enterprise | Výchozí | Předplatná založená na měsíčních platebních kartách | Předplatná MSDN | Azure for Students, bezplatné zkušební verze |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | – |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 K | – |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | – |
gpt-4 |
150 M | 30 M | 5 M | 100 tis. | – |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 M | 50 tis. |
B = miliarda | M = milion | K = tisíc
o1-preview & o1-mini rate limits
Důležité
Poměr RPM/TPM pro kvótu u modelů řady o1 funguje jinak než modely dokončení starších chatů:
- Starší modely chatu: 1 jednotka kapacity = 6 RPM a 1 000 TPM.
- o1-Preview: 1 jednotka kapacity = 1 RPM a 6 000 TPM.
- o1-mini: 1 jednotka kapacity = 1 RPM na 10 000 TPM.
To je zvlášť důležité pro programové nasazení modelu, protože tato změna poměru RPM/TPM může vést k náhodnému přidělení kvóty, pokud se stále předpokládá poměr 1:1000 následovaný staršími modely dokončování chatu.
Existuje známý problém s rozhraním API pro kvóty nebo využití, kde předpokládá, že starý poměr se vztahuje na nové modely řady o1. Rozhraní API vrátí správné číslo základní kapacity, ale nepoužije správný poměr pro přesný výpočet čipu TPM.
o1-preview & o1-mini global standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o1-preview |
Smlouva Enterprise | 30 M | 5 K |
o1-mini |
Smlouva Enterprise | 50 M | 5 K |
o1-preview |
Výchozí | 3 M | 500 |
o1-mini |
Výchozí | 5 M | 500 |
o1-preview a o1-mini standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o1-preview |
Smlouva Enterprise | 600 K | 100 |
o1-mini |
Smlouva Enterprise | 1 M | 100 |
o1-preview |
Výchozí | 300 K | 50 |
o1-mini |
Výchozí | 500 K | 50 |
gpt-4o & GPT-4 Turbo rychlost omezení
gpt-4o
a gpt-4o-mini
gpt-4
(turbo-2024-04-09
) mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.
gpt-4o & GPT-4 Turbo global standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Smlouva Enterprise | 30 M | 180 K |
gpt-4o-mini |
Smlouva Enterprise | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Smlouva Enterprise | 2 M | 12 K |
gpt-4o |
Výchozí | 450 K | 2.7 K |
gpt-4o-mini |
Výchozí | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Výchozí | 450 K | 2.7 K |
M = milion | K = tisíc
gpt-4o Data Zone Standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Smlouva Enterprise | 10 M | 60 K |
gpt-4o-mini |
Smlouva Enterprise | 20 M | 120 K |
gpt-4o |
Výchozí | 300 K | 1.8 K |
gpt-4o-mini |
Výchozí | 1 M | 6 K |
M = milion | K = tisíc
gpt-4o standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Smlouva Enterprise | 1 M | 6 K |
gpt-4o-mini |
Smlouva Enterprise | 2 M | 12 K |
gpt-4o |
Výchozí | 150 K | 900 |
gpt-4o-mini |
Výchozí | 450 K | 2.7 K |
M = milion | K = tisíc
Úrovně využití
Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně standardní nasazení zóny dat umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datové zóny definované Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.
Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.
Poznámka:
Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení dávkové a zřízené propustnosti.
GPT-4o global standard, data zone standard, &standard
Model | Úrovně využití za měsíc |
---|---|
gpt-4o |
12 miliard tokenů |
gpt-4o-mini |
85 miliard tokenů |
GPT-4 standard
Model | Úrovně využití za měsíc |
---|---|
gpt-4 + gpt-4-32k (všechny verze) |
6 miliard |
Další typy nabídek
Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.
Úroveň | Limit kvóty v tokenech za minutu (TPM) |
---|---|
Azure for Students, bezplatné zkušební verze | 1 K (všechny modely) |
Předplatná MSDN | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
Měsíční předplatná založená na platební kartě 1 | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
1 Toto se aktuálně vztahuje na typ nabídky 0003P.
Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Jak požádat o zvýšení výchozích kvót a omezení
Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure AI Studio. Kvůli vysoké poptávce se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, ve kterém jsou přijaty. Priorita je udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.
V případě jiných limitů sazeb odešlete žádost o služby.
Další kroky
Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.