Sdílet prostřednictvím


Onboarding jednotek zřízené propustnosti

Tento článek vás provede procesem onboardingu do zřízených jednotek propustnosti (PTU). Po dokončení počátečního onboardingu doporučujeme použít úvodní příručku k PTU.

Kdy použít zřízené jednotky propustnosti (PTU)

Pokud máte dobře definované, předvídatelné požadavky na propustnost a latenci, měli byste zvážit přechod ze standardních nasazení na zřízená nasazení. K tomu obvykle dochází, když je aplikace připravená pro produkční prostředí nebo je už nasazená v produkčním prostředí a rozumí očekávanému provozu. To umožňuje uživatelům přesně předpovídat požadovanou kapacitu a vyhnout se neočekávané fakturaci.

Typické scénáře PTU

  • Aplikace, která je připravená pro produkční nebo v produkčním prostředí.
  • Aplikace, která má předvídatelná očekávání kapacity nebo využití.
  • Aplikace má požadavky citlivé na latenci a čas v reálném čase.

Poznámka:

V případech volání funkcí a použití agenta může být použití tokenu proměnlivé. Před migrací úloh do PTU byste měli podrobně porozumět očekávanému využití tokenů za minutu (TPM).

Určení velikosti a odhadu: Zřízená nasazení

Určení správného množství zřízené propustnosti nebo PTU, které potřebujete pro vaši úlohu, je základním krokem k optimalizaci výkonu a nákladů. Pokud nejste obeznámeni s různými dostupnými přístupy k odhadu propustnosti na úrovni systému, projděte si doporučení odhadu propustnosti na úrovni systému v naší dokumentaci k výkonu a latenci. Tato část popisuje, jak pomocí kalkulaček kapacity Azure OpenAI odhadnout počet PTU potřebných k podpoře dané úlohy.

Odhad zřízených jednotek propustnosti a nákladů

Pokud chcete získat rychlý odhad úlohy pomocí vstupního a výstupního čipu TPM, využijte integrovaný plánovač kapacity v části podrobnosti o nasazení na obrazovce dialogového okna nasazení. Integrovaný plánovač kapacity je součástí pracovního postupu nasazení, který pomáhá zjednodušit změnu velikosti a přidělení kvóty pro nasazení PTU pro danou úlohu. Další informace o tom, jak identifikovat a odhadnout data TPM, najdete v doporučeních v naší dokumentaci k výkonu a latenci.

Po vyplnění vstupních a výstupních dat TPM v integrované kalkulačce kapacity vyberte tlačítko Vypočítat a zobrazte doporučení k přidělení PTU.

Snímek obrazovky s kalkulačkou kapacity PTU pracovního postupu nasazení

Pokud chcete odhadnout zřízenou kapacitu pomocí dat na úrovni požadavku, otevřete plánovač kapacity v Azure AI Foundry. Kalkulačka kapacity se nachází v části Kvóta>modelu sdílených prostředků>Azure OpenAI Zřízená.

Možnost Zřízená a plánovač kapacity jsou dostupné jenom v určitých oblastech v podokně Kvóta, pokud tuto možnost nastavení oblasti kvóty na Švédsko – střed tuto možnost zpřístupní. Zadejte následující parametry na základě vaší úlohy.

Vstup Popis
Model Model OpenAI, který plánujete použít. Příklad: GPT-4
Verze Verze modelu, který plánujete použít, například 0614
Počet volání ve špičce za minutu Početvoláních
Tokeny při volání výzvy Počet tokenů v příkazovém řádku pro každé volání modelu. Volání s většími výzvami využívají více nasazení PTU. V současné době tato kalkulačka předpokládá jednu hodnotu výzvy, takže pro úlohy s širokou odchylkou. Doporučujeme provést srovnávací testy nasazení vašeho provozu, abyste zjistili nejpřesnější odhad PTU potřebný pro vaše nasazení.
Tokeny v odpovědi modelu Počet tokenů vygenerovaných z každého volání modelu. Volání s většími velikostmi generace využívají více nasazení PTU. V současné době tato kalkulačka předpokládá jednu hodnotu výzvy, takže pro úlohy s širokou odchylkou. Doporučujeme provést srovnávací testy nasazení vašeho provozu, abyste zjistili nejpřesnější odhad PTU potřebný pro vaše nasazení.

Po vyplnění požadovaných podrobností vyberte tlačítko Vypočítat ve výstupním sloupci.

Hodnoty ve výstupním sloupci představují odhadovanou hodnotu jednotek PTU vyžadovaných pro zadané vstupy úloh. První výstupní hodnota představuje odhadované jednotky PTU požadované pro úlohu zaokrouhlené na nejbližší přírůstek měřítka PTU. Druhá výstupní hodnota představuje nezpracované odhadované jednotky PTU vyžadované pro úlohu. Součty tokenů se počítají pomocí následující rovnice: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Snímek obrazovky kalkulačky kapacity

Poznámka:

Kalkulačky kapacity poskytují odhad na základě jednoduchých vstupních kritérií. Nejpřesnější způsob, jak určit kapacitu, je otestovat nasazení s reprezentační úlohou pro váš případ použití.

Principy modelu nákupu zřízené propustnosti

Zřízená služba Azure OpenAI, zřízená zóna dat a globální zřizování se kupují na vyžádání po hodinách na základě počtu nasazených PTU s podstatnými slevami dostupnými prostřednictvím nákupu rezervací Azure.

Hodinový model je užitečný pro potřeby krátkodobého nasazení, jako je ověřování nových modelů nebo získání kapacity pro hackathon.  Slevy poskytované rezervací Azure pro Azure OpenAI Provisioned, Data Zone Provisioned a Global Provisioned jsou ale značné a většina zákazníků s konzistentním dlouhodobým využitím najde rezervovaný model, který bude lepší hodnotou.

Poznámka:

Zákazníci zřízené službou Azure OpenAI před srpnovou samoobslužnou aktualizací používají nákupní model označovaný jako model závazku. Tito zákazníci můžou i nadále používat tento starší nákupní model společně s modelem nákupu za hodinu nebo rezervací. Model závazku není k dispozici pro nové zákazníky ani nové modely zavedené po srpnu 2024. Podrobnosti o modelu nákupu závazku a možnostech koexistence a migraci najdete v srpnové aktualizaci Azure OpenAI Provisioned.

Hodinové využití

Zřízená, zřízená datová zóna a globální zřízená nasazení se účtují hodinovou sazbou ($/PTU/hr) počtu nasazených PTU.  Například nasazení 300 PTU se bude účtovat hodinové sazby 300.  Všechny ceny Azure OpenAI jsou k dispozici v kalkulačce cen Azure.

Pokud nasazení existuje po částečnou hodinu, obdrží poměrné poplatky na základě počtu minut, po které se během hodiny nasadily.  Například nasazení, které existuje po dobu 15 minut během hodiny, obdrží 1/4th hodinovou platbu. 

Pokud se velikost nasazení změní, náklady na nasazení se upraví tak, aby odpovídaly novému počtu PTU.

Diagram znázorňující hodinovou fakturaci

Placení za zřízená, zřízená data a globální zřízená nasazení po hodinách je ideální pro scénáře krátkodobého nasazení.  Příklad: Srovnávací testy kvality a výkonu nových modelů nebo dočasné zvýšení kapacity PTU pro pokrytí události, jako je hackathon. 

Zákazníci, kteří vyžadují dlouhodobé využití zřízených, zónově zřízených a globálních zřízených nasazení, ale můžou platit výrazně méně měsíčně nákupem slevy prostřednictvím rezervací Azure, jak je popsáno v další části.

Poznámka:

Nedoporučuje se škálovat produkční nasazení podle příchozího provozu a platit za ně čistě po hodinách. To má dva důvody:

  • Úspory nákladů dosažené nákupem rezervací Azure pro azure OpenAI Provisioned, Data Zone Provisioned a Global Provisioned jsou významné a v mnoha případech bude levnější udržovat velikost nasazení pro celý produkční objem placený rezervací, než by bylo škálování nasazení s příchozím provozem.
  • Nevyužitá zřízená kvóta (PTU) nezaručuje, že kapacita bude dostupná pro podporu zvýšení velikosti nasazení v případě potřeby. Kvóta omezuje maximální počet PTU, které je možné nasadit, ale nejedná se o záruku kapacity. Zřízená kapacita pro každou oblast a model se dynamicky mění v průběhu dne a nemusí být v případě potřeby dostupná. Proto doporučujeme zachovat trvalé nasazení, které bude zahrnovat vaše potřeby provozu (platí se za rezervaci).
  • Poplatky za nasazení na odstraněný prostředek budou pokračovat, dokud se prostředek nevyprázdní. Pokud tomu chcete zabránit, odstraňte nasazení prostředku před odstraněním prostředku. Další informace najdete v tématu Obnovení nebo vymazání odstraněných prostředků služeb Azure AI.

Rezervace Azure pro zřízená nasazení Azure OpenAI

Slevy nad hodinovou cenou za využití můžete získat zakoupením rezervace Azure pro Azure OpenAI Provisioned, Zřízenou zónou dat a globálním zřizováním. Rezervace Azure je mechanismus pro období slevy sdílený mnoha produkty Azure. Například Compute a Cosmos DB. V případě zřízených azure OpenAI, zřízených datových zón a globálního zřízení rezervace poskytuje slevu na platbu za pevný počet PTU za jeden měsíc nebo jeden rok. 

  • Rezervace Azure se kupují prostřednictvím webu Azure Portal, nikoli prostřednictvím portálu Azure AI Foundry Link na azure reservation Portal.

  • Rezervace se kupují v jednotlivých oblastech a dají se flexibilně vymezit tak, aby zahrnovaly využití ze skupiny nasazení. Rozsahy rezervací zahrnují:

    • Jednotlivé skupiny prostředků nebo předplatná

    • Skupina předplatných ve skupině pro správu

    • Všechna předplatná ve fakturačním účtu

  • Nové rezervace je možné zakoupit tak, aby pokrývala stejný rozsah jako stávající rezervace, aby bylo možné využít slevu na nová zřízená nasazení. Rozsah stávajících rezervací je také možné kdykoli aktualizovat bez sankcí, například za účelem pokrytí nového předplatného.

  • Rezervace globálních nasazení, zón dat a oblastí se nedají zaměnit. Pro každý typ nasazení je potřeba zakoupit samostatnou rezervaci.

  • Rezervace je možné po nákupu zrušit, ale kredity jsou omezené.

  • Pokud velikost zřízených nasazení v rámci rozsahu rezervace překročí částku rezervace, bude se překročení účtovat podle hodinové sazby. Pokud například nasazení činí 250 PTU v rozsahu rezervace 200 PTU, bude se 50 PTU účtovat každou hodinu, dokud se velikost nasazení nezmenší na 200 PTU, nebo se vytvoří nová rezervace, která pokryje zbývající 50.

  • Rezervace zaručují za vybraný termín zvýhodněnou cenu.  Nezarezervují kapacitu služby ani nezaručují, že bude dostupná při vytvoření nasazení. Důrazně doporučujeme, aby zákazníci vytvořili nasazení před nákupem rezervace, aby se zabránilo nadměrnému nákupu rezervace.

Důležité

  • Dostupnost kapacity pro nasazení modelů je dynamická a často se mění napříč oblastmi a modely. Pokud chcete zabránit nákupu rezervace pro více PTU, než můžete použít, vytvořte nejprve nasazení a pak si kupte rezervaci Azure, abyste pokrýli prostředky PTU, které jste nasadili. Tento osvědčený postup zajistí, abyste mohli plně využít slevu za rezervaci a zabránit vám v nákupu závazku na období, který nemůžete použít.

  • Požadavky na roli Azure a zásady tenanta pro nákup rezervace se liší od požadavků potřebných k vytvoření nasazení nebo prostředku Azure OpenAI. Ověřte autorizaci k nákupu rezervací předem, abyste to potřebovali. Další podrobnosti najdete v dokumentaci ke zřízené rezervaci Azure OpenAI.

Důležité: Určení velikosti zřízených rezervací Azure OpenAI

Částky PTU v nákupech rezervací jsou nezávislé na PTU přidělených v kvótě nebo používaném v nasazeních. Rezervaci je možné zakoupit pro více PTU, než máte v kvótě, nebo ji můžete nasadit pro požadovanou oblast, model nebo verzi. Kredity za nadměrné nákupy rezervace jsou omezené a zákazníci musí podniknout kroky k zajištění zachování velikosti rezervací v souladu s nasazenými PTU.

Osvědčeným postupem je vždy zakoupit rezervaci po vytvoření nasazení. Tím se zabrání zakoupení rezervace a zjištění, že požadovaná kapacita není pro požadovanou oblast nebo model k dispozici.

Rezervace globálních nasazení, zón dat a oblastí se nedají zaměnit. Pro každý typ nasazení je potřeba zakoupit samostatnou rezervaci.

Pomoc zákazníkům s nákupem správných částek rezervací Celkový počet PTU v předplatném a oblasti, na které se dá rezervace vztahuje, jsou uvedeny na stránce Kvóty služby Azure AI Foundry. Podívejte se na zprávu PTU k dispozici pro rezervaci.

Snímek obrazovky znázorňující dostupnou kvótu PTU

Správa rezervací Azure

Po vytvoření rezervace je osvědčeným postupem ho monitorovat, aby se zajistilo, že přijímá očekávané využití. Můžete to provést přes Azure Reservation Portal nebo Azure Monitor. Podrobnosti o těchto článcíchach

Další kroky