Co je zřízená propustnost?
Poznámka:
Zřizované nabídky Azure OpenAI obdržely významné aktualizace 12. srpna 2024, včetně sladění nákupního modelu se standardy Azure a přechodu na kvótu nezávislou na modelu. Důrazně doporučujeme, aby si zákazníci před tímto datem přečetli aktualizaci Azure OpenAI zřízenou v srpnu, abyste se dozvěděli další informace o těchto změnách.
Funkce zřízené propustnosti umožňuje zadat požadovanou propustnost v nasazení. Služba pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Propustnost se definuje z hlediska zřízených jednotek propustnosti (PTU), což je normalizovaný způsob reprezentace propustnosti pro vaše nasazení. Každý pár verze modelu vyžaduje k nasazení a poskytování různých objemů propustnosti na PTU různé množství PTU.
Jaké typy zřízeného nasazení poskytují?
- Předvídatelný výkon: stabilní maximální latence a propustnost pro jednotné úlohy
- Rezervovaná kapacita zpracování: Nasazení konfiguruje propustnost. Po nasazení je propustnost dostupná bez ohledu na to, jestli se používá.
- Úspora nákladů: Úlohy s vysokou propustností můžou přinést úsporu nákladů oproti spotřebě založené na tokenech.
Nasazení Azure OpenAI je jednotka správy pro konkrétní model OpenAI. Nasazení poskytuje zákazníkům přístup k modelu pro odvozování a integruje další funkce, jako je moderování obsahu (viz dokumentace ke con režim stanu ration). Globální zřízená nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako všechny ostatní typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datového centra s nejlepší dostupností pro každou žádost. Podobně jsou zřízená nasazení v zóně dat dostupná také ve stejných prostředcích jako všechny ostatní typy nasazení, ale umožňují využívat globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci zadané datové zóny Microsoftu s nejlepší dostupností pro každou žádost.
Jaký výsledek dostanete?
Téma | Zřízené |
---|---|
Co je to? | Poskytuje garantovanou propustnost při menších přírůstcích než stávající zřízená nabídka. Nasazení mají konzistentní maximální latenci pro danou verzi modelu. |
Pro koho je určeno? | Zákazníci, kteří chtějí garantovanou propustnost s minimální odchylkou latence. |
Kvóta | Zřízená spravovaná jednotka propustnosti, globální zřízená spravovaná jednotka propustnosti nebo jednotka spravované propustnosti zřízená v zóně dat přiřazená pro každou oblast. Kvótu je možné použít napříč libovolným dostupným modelem Azure OpenAI. |
Latence | Maximální latence omezená z modelu. Celková latence je faktorem tvaru volání. |
Využití | Míra využití zřízeného spravovaného prostředí V2 poskytovaná ve službě Azure Monitor |
Odhad velikosti | Poskytovaná kalkulačka ve skriptu Azure AI Foundry a srovnávací testy |
Ukládání do mezipaměti výzvy | U podporovaných modelů sleva až 100 % vstupních tokenů uložených v mezipaměti. |
Kolik propustnosti na PTU získáte pro každý model
Propustnost (tokeny za minutu nebo TPM) při nasazení na PTU je funkce vstupních a výstupních tokenů v minutě. Generovánívýstupních tokenů vyžaduje více zpracování než vstupní tokeny, takže čím více výstupních tokenů se vygenerovalo, tím nižší je celkový čip TPM. Služba dynamicky vyrovnává vstupní a výstupní náklady, takže uživatelé nemusí nastavovat konkrétní vstupní a výstupní limity. Tento přístup znamená, že vaše nasazení je odolné vůči výkyvům ve tvaru úlohy.
Abychom usnadnili úsilí o změnu velikosti, následující tabulka popisuje tpm na PTU pro gpt-4o
modely a gpt-4o-mini
modely, které představují maximální hodnotu TPM za předpokladu, že veškerý provoz je vstupní nebo výstupní. Pokud chcete zjistit, jak různé poměry vstupních a výstupních tokenů ovlivňují maximální počet čipů TPM na PTU, podívejte se na kalkulačku kapacity Azure OpenAI. Tabulka také zobrazuje cílové hodnoty latence smlouvy o úrovni služeb (SLA) na model. Další informace o smlouvě SLA pro službu Azure OpenAI najdete na stránce Smlouvy o úrovni služeb (SLA) pro online služby.
Téma | gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 | gpt-4o-mini, 2024-07-18 |
---|---|---|
Minimální nasazení globální zóny a zóny dat | 15 | 15 |
Zvýšení globální zóny a zóny dat | 5 | 5 |
Minimální místní nasazení | 50 | 25 |
Přírůstky místního zřízeného škálování | 50 | 25 |
Maximální počet vstupních čipů TPM na PTU | 2 500 | 37,000 |
Maximální počet výstupních čipů TPM na PTU | 833 | 12,333 |
Cílová hodnota latence | 25 tokenů za sekundu | 33 tokenů za sekundu |
Úplný seznam najdete v kalkulačce portálu Azure AI Foundry ve službě Azure OpenAI Service.
Poznámka:
Globální zřízená nasazení se v současnosti podporují jenom pro modely gpt-4o, 2024-08-06 a gpt-4o-mini, 2024-07-18. Zřízená nasazení zón dat jsou podporována pouze pro gpt-4o, 2024-08-06, gpt-4o, 2024-05-13 a gpt-4o-mini, 2024-07-18 modelů v tuto chvíli. Další informace o dostupnosti modelu najdete v dokumentaci k modelům.
Klíčové koncepty
Typy nasazení
Při vytváření zřízeného nasazení ve službě Azure AI Foundry je možné typ nasazení v dialogovém okně Vytvořit nasazení nastavit na typ nasazení v závislosti na potřebách zpracování dat pro danou úlohu.
Při vytváření zřízeného nasazení v Azure OpenAI prostřednictvím rozhraní příkazového řádku nebo rozhraní API sku-name
je možné nastavit hodnotu GlobalProvisionedManaged
, DataZoneProvisionedManaged
nebo ProvisionedManaged
v závislosti na potřebě zpracování dat pro danou úlohu. Pokud chcete přizpůsobit níže uvedený ukázkový příkaz Azure CLI na jiný typ nasazení, jednoduše aktualizujte sku-name
parametr tak, aby odpovídal typu nasazení, který chcete nasadit.
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4 \
--model-version 0613 \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name ProvisionedManaged
Kvóta
Zřízené jednotky propustnosti
Zřízené jednotky propustnosti (PTU) jsou obecné jednotky kapacity zpracování modelu, které můžete použít k nastavení velikosti zřízených nasazení, abyste dosáhli požadované propustnosti pro zpracování výzev a generování dokončení. Zřízené jednotky propustnosti se udělují předplatnému jako kvóta. Každá kvóta je specifická pro oblast a definuje maximální počet PTU, které je možné přiřadit k nasazením v daném předplatném a oblasti.
Nezávislá kvóta modelu
Na rozdíl od kvóty tokenů za minutu (TPM) využívaných jinými nabídkami Azure OpenAI jsou PTU nezávislé na modelu. PtU se můžou použít k nasazení libovolného podporovaného modelu nebo verze v dané oblasti.
U zřízených nasazení se nová kvóta zobrazí ve službě Azure AI Foundry jako položka kvóty s názvem Zřízená jednotka spravované propustnosti. V případě globálních zřízených nasazení se nová kvóta zobrazí v Azure AI Foundry jako položka kvóty s názvem Global Provisioned Managed Propustnost Unit. U zřízených nasazení v zóně dat se nová kvóta zobrazí ve službě Azure AI Foundry jako položka kvóty s názvem Jednotka spravované propustnosti zřízená v zóně dat. V podokně Nalezené kvóty se rozbalením položky kvóty zobrazí nasazení přispívající k využití každé kvóty.
Získání kvóty PTU
Kvóta PTU je ve výchozím nastavení dostupná v mnoha oblastech. Pokud je vyžadována větší kvóta, zákazníci můžou požádat o kvótu prostřednictvím odkazu Vyžádat kvótu. Tento odkaz najdete napravo od určených karet kvót zřízeného typu nasazení ve službě Azure AI Foundry. Formulář umožňuje zákazníkovi požádat o navýšení zadané kvóty PTU pro danou oblast. Jakmile se žádost schválí, obdrží zákazník e-mail na zahrnuté adrese, obvykle do dvou pracovních dnů.
Minimální počet PTU pro jednotlivé modely
Minimální nasazení PTU, přírůstky a kapacita zpracování přidružené ke každé jednotce se liší podle typu modelu a verze.
Transparentnost kapacity
Azure OpenAI je vysoce hledané služby, kde poptávka zákazníků může překročit kapacitu GPU služby. Microsoft se snaží poskytnout kapacitu pro všechny oblasti a modely na vyžádání, ale prodej oblasti je vždy možností. Toto omezení může omezit schopnost některých zákazníků vytvořit nasazení požadovaného modelu, verze nebo počtu PTU v požadované oblasti – i když mají v této oblasti dostupnou kvótu. Obecně řečeno:
- Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti, a nezaručuje dostupnost kapacity.
- Kapacita se přiděluje v době nasazení a uchovává se tak dlouho, dokud nasazení existuje. Pokud není dostupná kapacita služby, nasazení selže.
- Zákazníci používají informace o dostupnosti kvóty nebo kapacity v reálném čase k výběru vhodné oblasti pro svůj scénář s potřebnou kapacitou modelu.
- Vertikální snížení nebo odstranění kapacity nasazení uvolní kapacitu zpět do oblasti. Není zaručeno, že kapacita bude dostupná, pokud se nasazení vertikálně navýšit nebo znovu vytvořit později.
Pokyny k regionální kapacitě
Pokud chcete najít kapacitu potřebnou pro jejich nasazení, použijte rozhraní API kapacity nebo prostředí nasazení Azure AI Foundry k poskytování informací o dostupnosti kapacity v reálném čase.
V Azure AI Foundry prostředí nasazení identifikuje, kdy oblast nemá kapacitu potřebnou k nasazení modelu. Tím se podíváte na požadovaný model, verzi a počet PTU. Pokud není kapacita dostupná, prostředí uživatele nasměruje do vybrané alternativní oblasti.
Podrobnosti o novém prostředí nasazení najdete v úvodní příručce azure OpenAI Provisioned.
Nové rozhraní API kapacit modelu lze použít k programové identifikaci maximální velikosti nasazení zadaného modelu. Rozhraní API bere v úvahu kvótu i kapacitu služby v dané oblasti.
Pokud není dostupná přijatelná oblast pro podporu požadovaného modelu, verze a/nebo PTU, můžou zákazníci vyzkoušet také následující kroky:
- Pokuste se o nasazení s menším počtem PTU.
- Pokuste se o nasazení v jiném okamžiku. Změny dostupnosti kapacity se dynamicky mění na základě poptávky zákazníků a vyšší kapacita se může později zpřístupnit.
- Ujistěte se, že je kvóta dostupná ve všech přijatelných oblastech. Rozhraní API pro kapacity modelu a prostředí Azure AI Foundry zvažují dostupnost kvót v vracející se alternativní oblasti pro vytvoření nasazení.
Určení počtu PTU potřebných pro úlohu
PTU představují množství kapacity zpracování modelu. Podobně jako v počítači nebo databázích budou různé úlohy nebo požadavky na model spotřebovávat různé objemy základní kapacity zpracování. Převod z charakteristik obrazce volání (velikost výzvy, velikost generování a rychlost volání) na PTU je složitý a nelineární. Pokud chcete tento proces zjednodušit, můžete pomocí kalkulačky kapacity Azure OpenAI určit velikost konkrétních obrazců úloh.
Několik důležitých informací na vysoké úrovni:
- Generace vyžadují větší kapacitu než výzvy.
- V případě modelů GPT-4o a novějších je čip TPM pro každý PTU nastavený pro vstupní a výstupní tokeny samostatně. U starších modelů jsou větší volání pro výpočty postupně dražší. Například 100 volání s velikostí výzvy 1000 tokenů vyžaduje v příkazovém řádku menší kapacitu než jedno volání s 100 000 tokeny. Toto vrstvení znamená, že rozdělení těchto obrazců volání je důležité v celkové propustnosti. U vzorů provozu s širokou distribucí, která zahrnuje některé velké volání, může docházet k nižší propustnosti na PTU než u užší distribuce se stejnými průměrnými velikostmi tokenů výzvy a dokončení.
Jak funguje výkon využití
Zřízená nasazení poskytují přidělené množství kapacity zpracování modelu pro spuštění daného modelu.
Ve všech zřízených typech nasazení vrátí rozhraní API při překročení kapacity chybu stavu HTTP 429. Tato rychlá odpověď uživateli umožňuje rozhodovat se, jak spravovat provoz. Uživatelé můžou žádosti přesměrovat na samostatné nasazení, na standardní instanci s průběžnými platbami nebo ke správě dané žádosti použít strategii opakování. Služba nadále vrací stavový kód HTTP 429, dokud využití klesne pod 100 %.
Jak můžu monitorovat kapacitu?
Metrika zřízeného využití spravovaného prostředí V2 ve službě Azure Monitor měří dané využití nasazení na 1minutových přírůstcích. Všechny typy zřízeného nasazení jsou optimalizované, aby se zajistilo, že se akceptovaná volání zpracovávají s konsiscí režim stanu l čas zpracování (skutečná latence od konce do konce závisí na charakteristikách volání).
Co mám dělat, když obdržím odpověď 429?
Odpověď 429 není chyba, ale místo části návrhu, která uživatelům říká, že dané nasazení je plně využité v určitém okamžiku. Poskytnutím odpovědi s rychlým selháním máte kontrolu nad tím, jak tyto situace zvládnout způsobem, který nejlépe vyhovuje požadavkům vaší aplikace.
retry-after
Hlavičky retry-after-ms
a hlavičky v odpovědi vám řeknou, že je čas čekat, než se přijme další volání. Způsob zpracování této odpovědi závisí na požadavcích vaší aplikace. Tady je několik aspektů:
- Můžete zvážit přesměrování provozu na jiné modely, nasazení nebo prostředí. Tato možnost je řešením s nejnižší latencí, protože akce se dá provést, jakmile obdržíte signál 429. Nápady na efektivní implementaci tohoto vzoru najdete v tomto příspěvku komunity.
- Pokud máte v pořádku delší latenci volání, implementujte logiku opakování na straně klienta. Tato možnost poskytuje nejvyšší propustnost na PTU. Klientské knihovny Azure OpenAI zahrnují integrované funkce pro zpracování opakovaných pokusů.
Jak se služba rozhodne, kdy odeslat 429?
Ve všech zřízených typech nasazení se každý požadavek vyhodnocuje jednotlivě podle velikosti výzvy, očekávané velikosti generování a modelu, aby bylo možné určit očekávané využití. To je na rozdíl od nasazení s průběžným platbami, které mají vlastní chování omezování rychlosti na základě odhadovaného zatížení provozu. U nasazení s průběžným platbami to může vést k chybám HTTP 429 před překročením definovaných hodnot kvót, pokud provoz není rovnoměrně distribuovaný.
Pro zřízená nasazení používáme variantu algoritmu pro únik kbelíků, abychom zachovali využití nižší než 100 % a umožnili tak určité nárůsty provozu. Logika vysoké úrovně je následující:
Každý zákazník má nastavenou kapacitu, kterou může využít při nasazení.
Při provedení žádosti:
a. Pokud je aktuální využití vyšší než 100 %, vrátí služba kód 429 s
retry-after-ms
hlavičkou nastavenou na čas, dokud využití klesne pod 100 %b. V opačném případě služba odhaduje přírůstkovou změnu využití vyžadovanou k doručení požadavku kombinováním tokenů výzvy a zadaných
max_tokens
ve volání. U požadavků, které obsahují alespoň 1024 tokenů uložených v mezipaměti, se od hodnoty tokenu výzvy odečtou tokeny uložené v mezipaměti. Zákazník může získat až 100% slevu na tokeny výzvy v závislosti na velikosti tokenů uložených v mezipaměti.max_tokens
Pokud parametr není zadaný, služba odhaduje hodnotu. Tento odhad může vést k nižší souběžnosti, než se čekalo, když je počet generovaných tokenů malý. Pokud chcete zajistit nejvyšší souběžnost, ujistěte se, žemax_tokens
je hodnota co nejblíže velikosti skutečné generace.Po dokončení požadavku teď známe skutečné náklady na výpočetní prostředky volání. Abychom zajistili přesné účtování, opravíme využití pomocí následující logiky:
a. Pokud je skutečný > odhad, přidá se k využití nasazení rozdíl.
b. Pokud se skutečný < odhad odečte, rozdíl se odečte.
Celkové využití se snižuje nepřetržitě na základě počtu nasazených PTU.
Poznámka:
Volání se přijímají, dokud využití nedosáhne 100 %. V krátkých obdobích může být povolené nárůsty o více než 100 %, ale v průběhu času je provoz omezený na 100% využití.
Kolik souběžných volání můžu mít v nasazení?
Počet souběžných volání, které můžete dosáhnout, závisí na obrazci každého volání (velikost výzvy, max_token parametr atd.). Služba nadále přijímá volání, dokud využití nedosáhne 100 %. Pokud chcete určit přibližný počet souběžných volání, můžete v kalkulačce kapacity vymodelovat maximální počet požadavků za minutu pro určitý obrazec volání. Pokud systém generuje méně než počet tokenů vzorkování, jako je max_token, přijme více požadavků.
Jaké modely a oblasti jsou k dispozici pro zřízenou propustnost?
Oblast | gpt-4o, 2024-05-13 | gpt-4o, 2024-08-06 | gpt-4o-mini, 2024-07-18 | gpt-4, 0613 | gpt-4, 1106-Preview | gpt-4, 0125-Preview | gpt-4, turbo-2024-04-09 | gpt-4-32k, 0613 | gpt-35-turbo, 1106 | gpt-35-turbo, 0125 |
---|---|---|---|---|---|---|---|---|---|---|
australiaeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
brazilsouth | ✅ | - | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | - |
canadacentral | ✅ | - | - | ✅ | - | - | - | ✅ | - | ✅ |
canadaeast | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | - | ✅ | - |
eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
francecentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | - | ✅ |
Německo – středozápad | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - |
japaneast | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | - | ✅ |
koreacentral | ✅ | ✅ | ✅ | ✅ | - | - | ✅ | ✅ | ✅ | - |
northcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Norsko – východ | ✅ | - | ✅ | ✅ | - | ✅ | - | ✅ | - | - |
polskocentral | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Jižní Afrika – sever | ✅ | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - |
Střed USA – jih | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
southindia | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ |
swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
switzerlandnorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
switzerlandwest | - | - | - | - | - | - | - | - | - | ✅ |
Spojené arabské emiráty – sever | ✅ | - | - | - | ✅ | - | - | - | ✅ | ✅ |
uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
westus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
westus3 | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Poznámka:
Zřízená verze gpt-4
: turbo-2024-04-09
v současné době je omezena pouze na text.