Sdílet prostřednictvím


Kvóty a limity služby Azure OpenAI

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure 30
Výchozí limity kvót DALL-E 2 2 souběžné žádosti
Výchozí limity kvót DALL-E 3 2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót pro šeptaní 3 žádosti za minutu
Maximální počet tokenů výzvy na požadavek Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální počet standardních nasazení na prostředek 32
Maximální jemně vyladěná nasazení modelu 5
Celkový počet trénovacích úloh na prostředek 100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek 0
Maximální počet trénovacích úloh zařazených do fronty 20
Maximální počet souborů na prostředek (vyladění) 50
Celková velikost všech souborů na prostředek (vyladění) 1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) 720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) 2 miliardy
Max size of all files per upload (Azure OpenAI on your data) 16 MB
Maximální počet nebo vstupy v poli s /embeddings 2048
Maximální počet /chat/completions zpráv 2048
Maximální počet /chat/completions funkcí 128
Maximální počet /chat completions nástrojů 128
Maximální počet zřízených jednotek propustnosti na nasazení 100 000
Maximální počet souborů na asistenta nebo vlákno 10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio.
Maximální velikost souboru pro asistenty a vyladění 512 MB
Maximální velikost všech nahraných souborů pro Asistenty 100 GB
Limit tokenů asistentů 2 000 000 tokenů
GpT-4o max images per request (# of images in the messages array/conversation history) 50
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 10
Maximální počet požadavků za minutu

Aktuální omezení rychlosti zvuku v reálném čase (gpt-4o-realtime-preview) jsou definována jako počet nových připojení websocket za minutu. Například 6 požadavků za minutu (RPM) znamená 6 nových připojení za minutu. V tuto chvíli jsou limity gpt-4o-realtime-preview využití vhodné pro testování a vývoj.
6 nových připojení za minutu

1 Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku hlaviček. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.

Omezení kvót v jednotlivých oblastech

Oblast o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini – GlobalStandard o1 – GlobalStandard gpt-4o – GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o – Global-Batch GPT-4o-mini - Global-Batch GPT-4 – Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - jemné ladění GPT-4o-mini - jemné ladění GPT-4 - jemné ladění Babbage-002 Babbage-002 - jemné ladění Davinci-002 Davinci-002 - jemné ladění GPT-35-Turbo - jemné ladění GPT-35-Turbo-1106 - jemné ladění GPT-35-Turbo-0125 - jemné ladění
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 tis. 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
Německo – středozápad - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 tis. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
Norsko – východ - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polskocentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
Jižní Afrika – sever - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
Střed USA – jih 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
španělskocentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 tis. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Globální limity dávek

Název limitu Omezit hodnotu
Maximální počet souborů na prostředek 500
Maximální velikost vstupního souboru 200 MB
Maximální počet požadavků na soubor 100 000

Globální kvóta dávky

V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska vyčtených tokenů. Když odešlete soubor pro dávkové zpracování počtu tokenů, které jsou přítomné v souboru, se započítávají. Dokud dávková úloha nedosáhne stavu terminálu, tyto tokeny se započítávají do celkového limitu vyčíslených tokenů.

Model Smlouva Enterprise Výchozí Předplatná založená na měsíčních platebních kartách Předplatná MSDN Azure for Students, bezplatné zkušební verze
gpt-4o 5 B 200 M 50 M 90 K
gpt-4o-mini 15 B 1 B 50 M 90 K
gpt-4-turbo 300 M 80 M 40 M 90 K
gpt-4 150 M 30 M 5 M 100 tis.
gpt-35-turbo 10 B 1 B 100 M 2 M 50 tis.

B = miliarda | M = milion | K = tisíc

o1-preview & o1-mini rate limits

Důležité

Poměr RPM/TPM pro kvótu u modelů řady o1 funguje jinak než modely dokončení starších chatů:

  • Starší modely chatu: 1 jednotka kapacity = 6 RPM a 1 000 TPM.
  • o1-Preview: 1 jednotka kapacity = 1 RPM a 6 000 TPM.
  • o1-mini: 1 jednotka kapacity = 1 RPM na 10 000 TPM.

To je zvlášť důležité pro programové nasazení modelu, protože tato změna poměru RPM/TPM může vést k náhodnému přidělení kvóty, pokud se stále předpokládá poměr 1:1000 následovaný staršími modely dokončování chatu.

Existuje známý problém s rozhraním API pro kvóty nebo využití, kde předpokládá, že starý poměr se vztahuje na nové modely řady o1. Rozhraní API vrátí správné číslo základní kapacity, ale nepoužije správný poměr pro přesný výpočet čipu TPM.

o1-preview & o1-mini global standard

Model Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
o1-preview Smlouva Enterprise 30 M 5 K
o1-mini Smlouva Enterprise 50 M 5 K
o1-preview Výchozí 3 M 500
o1-mini Výchozí 5 M 500

o1-preview a o1-mini standard

Model Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
o1-preview Smlouva Enterprise 600 K 100
o1-mini Smlouva Enterprise 1 M 100
o1-preview Výchozí 300 K 50
o1-mini Výchozí 500 K 50

gpt-4o & GPT-4 Turbo rychlost omezení

gpt-4oa gpt-4o-minigpt-4 (turbo-2024-04-09) mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o & GPT-4 Turbo global standard

Model Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Smlouva Enterprise 30 M 180 K
gpt-4o-mini Smlouva Enterprise 50 M 300 K
gpt-4 (turbo-2024-04-09) Smlouva Enterprise 2 M 12 K
gpt-4o Výchozí 450 K 2.7 K
gpt-4o-mini Výchozí 2 M 12 K
gpt-4 (turbo-2024-04-09) Výchozí 450 K 2.7 K

M = milion | K = tisíc

gpt-4o Data Zone Standard

Model Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Smlouva Enterprise 10 M 60 K
gpt-4o-mini Smlouva Enterprise 20 M 120 K
gpt-4o Výchozí 300 K 1.8 K
gpt-4o-mini Výchozí 1 M 6 K

M = milion | K = tisíc

gpt-4o standard

Model Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Smlouva Enterprise 1 M 6 K
gpt-4o-mini Smlouva Enterprise 2 M 12 K
gpt-4o Výchozí 150 K 900
gpt-4o-mini Výchozí 450 K 2.7 K

M = milion | K = tisíc

Úrovně využití

Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně standardní nasazení zóny dat umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datové zóny definované Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

Poznámka:

Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení dávkové a zřízené propustnosti.

GPT-4o global standard, data zone standard, &standard

Model Úrovně využití za měsíc
gpt-4o 12 miliard tokenů
gpt-4o-mini 85 miliard tokenů

GPT-4 standard

Model Úrovně využití za měsíc
gpt-4 + gpt-4-32k (všechny verze) 6 miliard

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň Limit kvóty v tokenech za minutu (TPM)
Azure for Students, bezplatné zkušební verze 1 K (všechny modely)
Předplatná MSDN GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K
Měsíční předplatná založená na platební kartě 1 GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K

1 Toto se aktuálně vztahuje na typ nabídky 0003P.

Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

  • Implementujte do své aplikace logiku opakování pokusů.
  • Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
  • Otestujte různé vzorce zvýšení zatížení.
  • Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure AI Studio. Kvůli vysoké poptávce se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, ve kterém jsou přijaty. Priorita je udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.