Kvóty a omezení odvozování modelů Azure AI ve službách Azure AI
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro odvozování modelu Azure AI ve službách Azure AI. Kvóty a omezení specifická pro službu Azure OpenAI najdete v tématu Kvóta a limity ve službě Azure OpenAI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro službu odvozování modelu Azure AI ve službách Azure AI:
Omezení prostředků
Název limitu | Limit value |
---|---|
Prostředky služeb Azure AI na oblast na předplatné Azure | 30 |
Maximální počet nasazení na prostředek | 32 |
Omezení přenosové rychlosti
Název limitu | Limit value |
---|---|
Tokeny za minutu (modely Azure OpenAI) | Liší se podle modelu a skladové položky. Viz omezení pro Azure OpenAI. |
Tokeny za minutu (zbytek modelů) | 200.000 |
Požadavky za minutu (modely Azure OpenAI) | Liší se podle modelu a skladové položky. Viz omezení pro Azure OpenAI. |
Požadavky za minutu (zbytek modelů) | 1,000 |
Další omezení
Název limitu | Limit value |
---|---|
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 | 10 |
1 Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Všimli jsme si, že někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku záhlaví. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.
Úrovně využití
Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět více variabilit v latenci odezvy.
Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Zvýšení požadavků na výchozí kvóty a limity
Žádosti o navýšení kvóty je možné odeslat a vyhodnotit na žádost. Odešlete žádost o službu.
Další kroky
- Další informace o modelech dostupných ve službě odvozování modelu Azure AI