Kvóty a omezení odvozování modelů Azure AI ve službách Azure AI

Článek
01/30/2025

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro odvozování modelu Azure AI ve službách Azure AI. Kvóty a omezení specifická pro službu Azure OpenAI najdete v tématu Kvóta a limity ve službě Azure OpenAI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro službu odvozování modelu Azure AI ve službách Azure AI:

Omezení prostředků

Název limitu	Limit value
Prostředky služeb Azure AI na oblast na předplatné Azure	30
Maximální počet nasazení na prostředek	32

Omezení přenosové rychlosti

Název limitu	Limit value
Tokeny za minutu (modely Azure OpenAI)	Liší se podle modelu a skladové položky. Viz omezení pro Azure OpenAI.
Tokeny za minutu (zbytek modelů)	200.000
Požadavky za minutu (modely Azure OpenAI)	Liší se podle modelu a skladové položky. Viz omezení pro Azure OpenAI.
Požadavky za minutu (zbytek modelů)	1,000

Další omezení

Název limitu	Limit value
Maximální počet vlastních hlaviček v požadavcích^{rozhraní API 1}	10

¹ Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Všimli jsme si, že někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku záhlaví. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.

Úrovně využití

Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět více variabilit v latenci odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

Implementujte do své aplikace logiku opakování pokusů.
Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
Otestujte různé vzorce zvýšení zatížení.
Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Zvýšení požadavků na výchozí kvóty a limity

Žádosti o navýšení kvóty je možné odeslat a vyhodnotit na žádost. Odešlete žádost o službu.

Další kroky

Další informace o modelech dostupných ve službě odvozování modelu Azure AI

Sdílet prostřednictvím