Typy nasazení Azure OpenAI
Azure OpenAI poskytuje zákazníkům volby ve struktuře hostování, která odpovídá jejich obchodním vzorům a vzorům využití. Služba nabízí dva hlavní typy nasazení: standardní a zřízené. U daného typu nasazení můžou zákazníci sladit své úlohy s požadavky na zpracování dat tak, že zvolí geografickou oblast Azure (Standard
neboProvisioned
), zadanou zónu dat Microsoftu () nebo globální (DataZone-Standard
Global-Standard
neboGlobal Provisioned-Managed
) možnosti zpracování.
Všechna nasazení můžou provádět přesně stejné operace odvozování, ale fakturace, škálování a výkon se podstatně liší. V rámci návrhu řešení budete muset provést dvě klíčová rozhodnutí:
- Umístění zpracování dat
- Objem volání
Umístění zpracování dat nasazení Azure OpenAI
U standardních nasazení si můžete vybrat ze tří možností typu nasazení – globální, datová zóna a geografická oblast Azure. Pro zřízená nasazení existují dvě možnosti typu nasazení, ze které si můžete vybrat – globální a geografickou oblast Azure. Globální standard je doporučeným výchozím bodem.
Globální nasazení využívají globální infrastrukturu Azure k dynamickému směrování provozu zákazníků do datacentra s nejlepší dostupností pro požadavky zákazníka na odvozování. To znamená, že získáte nejvyšší počáteční limity propustnosti a nejlepší dostupnost modelu v globálním prostředí a zároveň zajistíte naši smlouvu SLA pro dostupnost a nízkou latenci. U úloh s velkým objemem nad určenými úrovněmi využití na úrovni Standard a Global Standard můžete zaznamenat zvýšenou latenci. Pro zákazníky, kteří vyžadují nižší odchylku latence při velkém využití úloh, doporučujeme využít naše zřízené typy nasazení.
Naše globální nasazení budou prvním místem pro všechny nové modely a funkce. V závislosti na objemu volání by zákazníci s velkým objemem a požadavky na odchylku nízké latence měli zvážit naše zřízené typy nasazení.
Nasazení datových zón využívají globální infrastrukturu Azure k dynamickému směrování provozu zákazníků do datacentra s nejlepší dostupností požadavků na odvozování zákazníka v rámci datové zóny definované Microsoftem. Umístění mezi naší geografickou oblastí Azure a globálními nabídkami nasazení poskytuje nasazení zóny dat zvýšenou kvótu a zároveň zachovává zpracování dat v rámci zadané datové zóny Microsoftu. Neaktivní uložená data zůstanou v zeměpisné oblasti prostředku Azure OpenAI (například pro prostředek Azure OpenAI vytvořený v oblasti Azure Central Azure, zeměpis Azure je Švédsko).
Pokud se prostředek Azure OpenAI použitý ve vašem nasazení zóny dat nachází v USA, budou data zpracována v rámci USA. Pokud se prostředek Azure OpenAI použitý ve vašem nasazení datové zóny nachází v členském státě Evropské unie, budou data zpracována v geografických oblastech členských států Evropské unie. U všech typů nasazení služby Azure OpenAI zůstanou všechna neaktivní uložená data v zeměpisné oblasti prostředku Azure OpenAI. Závazky týkající se zpracování a dodržování předpisů v Azure zůstávají platné.
U všech typů nasazení označených jako Globální se můžou výzvy a odpovědi zpracovat v libovolné geografické oblasti, kde je nasazen příslušný model Azure OpenAI (další informace o dostupnosti modelů v jednotlivých oblastech). U všech typů nasazení označených jako DataZone se můžou výzvy a odpovědi zpracovávat v libovolné zeměpisné oblasti v zadané zóně dat, jak je definováno Microsoftem. Pokud vytvoříte nasazení DataZone v prostředku Azure OpenAI umístěném v USA, můžou se výzvy a odpovědi zpracovávat kdekoli v USA. Pokud vytvoříte nasazení DataZone v prostředku Azure OpenAI umístěném v členském státě Evropské unie, mohou být výzvy a odpovědi zpracovány v daném nebo jiném členském státě Evropské unie. U globálních i datových typů nasazení se všechna neaktivní uložená neaktivní uložená data, například nahraná data, ukládají v zeměpisné oblasti určené zákazníkem. Ovlivněno je pouze umístění zpracování, pokud zákazník používá globální typ nasazení nebo typ nasazení DataZone ve službě Azure OpenAI Service; Závazky týkající se zpracování a dodržování předpisů v Azure zůstávají platné.
Typy nasazení
Azure OpenAI nabízí tři typy nasazení. Poskytují různé úrovně funkcí, které poskytují kompromisy pro propustnost, smlouvy SLA a cenu. Níže je souhrn možností, za kterými následuje podrobnější popis jednotlivých možností.
Oběť | Global-Batch | Global-Standard | Global-Provisioned | Standard | Zřízené |
---|---|---|---|---|---|
Nejvhodnější pro | Bodování offline Úlohy, které nejsou citlivé na latenci, a je možné je dokončit v hodinách. |
Doporučené výchozí místo pro zákazníky. Global-Standard bude mít vyšší výchozí kvótu a větší počet dostupných modelů než Standard. |
Bodování v reálném čase pro velký konzistentní objem Zahrnuje nejvyšší závazky a limity. | Pro zákazníky s požadavky na rezidenci dat. Optimalizované pro nízký až střední objem. | Bodování v reálném čase pro velký konzistentní objem Zahrnuje nejvyšší závazky a limity. Pro případy použití s požadavky na rezidenci dat |
Jak to funguje | Offline zpracování prostřednictvím souborů | Provoz může být směrován kdekoli na světě. | Provoz může být směrován kdekoli na světě. | ||
Začínáme | Global-Batch | Nasazení modelu | Zřízení onboardingu | Nasazení modelu | Zřízení onboardingu |
Náklady | Nejnákladnější možnost 50% nižší náklady v porovnání s cenami Global Standard. Přístup ke všem novým modelům s většími přiděleními kvót |
Ceny globálního nasazení | Může docházet k úsporám nákladů za konzistentní využití | Regionální ceny | Může docházet k úsporám nákladů za konzistentní využití |
Co získáte | Významná sleva ve srovnání s global standardem | Snadný přístup ke všem novým modelům s nejvyššími výchozími limity plateb za volání. Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence. |
Přístup k vysoké a předvídatelné propustnosti napříč globální infrastrukturou Azure Určete propustnost na PTU pomocí poskytnuté kalkulačky kapacity. | Smlouva SLA o dostupnosti. Optimalizované pro úlohy s nízkým až středním objemem s vysokou nárazovou zátěží. Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. |
Regionální přístup s velmi vysokou a předvídatelnou propustností. Určení propustnosti na PTU pomocí poskytnuté kalkulačky kapacity |
Co nedostanete | ❌Výkon volání v reálném čase ❌Záruka zpracování dat Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat |
❌Záruka zpracování dat Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat |
❌Flexibilita plateb za volání ❌Záruka zpracování dat Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat |
❌Vysoká latence s vysokým objemem s nízkou latencí | ❌Flexibilita plateb za volání |
Latence volání | Nejde použít (asynchronní proces založený na souborech) | Optimalizované pro volání v reálném čase a nízké až střední využití svazku. Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence. Prahová hodnota nastavená na model | Optimalizované pro volání v reálném čase a vysoké využití objemu. | Optimalizované pro volání v reálném čase a nízké až střední využití svazku. Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence. Prahová hodnota nastavená na model | Optimalizované pro volání v reálném čase a vysoké využití objemu. |
Název skladové položky v kódu | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Model fakturace | Platba za token | Platba za token | Hodinová fakturace s volitelným nákupem měsíčních nebo ročních rezervací | Platba za token | Hodinová fakturace s volitelným nákupem měsíčních nebo ročních rezervací |
Globální standard
Důležité
Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.
Globální nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako jiné než globální typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datacentra s nejlepší dostupností pro každou žádost. Globální standard poskytuje nejvyšší výchozí kvótu a eliminuje nutnost vyrovnávat zatížení napříč několika prostředky.
Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. Prahová hodnota je nastavená pro každý model. Další informace najdete na stránce kvót. Pro aplikace, které vyžadují nižší odchylku latence při velkém využití úloh, doporučujeme zakoupit zřízenou propustnost.
Globální zřízeno
Důležité
Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.
Globální nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako jiné než globální typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datacentra s nejlepší dostupností pro každou žádost. Globální zřízená nasazení poskytují rezervovanou kapacitu pro zpracování modelů pro vysokou a předvídatelnou propustnost pomocí globální infrastruktury Azure.
Globální dávka
Důležité
Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.
Globální dávka je navržená tak, aby efektivně zpracovávala úlohy rozsáhlého a vysokoobjemového zpracování. Zpracování asynchronních skupin požadavků s samostatnou kvótou s 24hodinovým cílovým turnaroundem s 50% nižšími náklady než globální standard. Při dávkovém zpracování místo odeslání jednoho požadavku v jednom souboru odešlete velký počet požadavků. Globální dávkové požadavky mají samostatnou kvótu front tokenů, aby nedošlo k přerušení online úloh.
Mezi klíčové případy použití patří:
Rozsáhlé zpracování dat: Paralelní rychlá analýza rozsáhlých datových sad
Generování obsahu: Umožňuje vytvářet velké objemy textu, jako jsou popisy produktů nebo články.
Kontrola a shrnutí dokumentů: Automatizujte kontrolu a shrnutí dlouhých dokumentů.
Automatizace zákaznické podpory: Zpracování mnoha dotazů současně za účelem rychlejších odpovědí
Extrakce a analýza dat: Extrahování a analýza informací z obrovského množství nestrukturovaných dat
Úlohy zpracování přirozeného jazyka (NLP): Provádění úkolů, jako je analýza mínění nebo překlad velkých datových sad
Marketing a přizpůsobení: Vygenerujte přizpůsobený obsah a doporučení ve velkém měřítku.
Standard datové zóny
Důležité
Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI v zadané zóně dat Microsoftu. Přečtěte si další informace o rezidenci dat.
Standardní nasazení zóny dat jsou k dispozici ve stejném prostředku Azure OpenAI jako všechny ostatní typy nasazení Azure OpenAI, ale umožňují využívat globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datového centra definovaného Microsoftem s nejlepší dostupností pro každou žádost. Standard datové zóny poskytuje vyšší výchozí kvóty než naše typy nasazení založené na zeměpisné oblasti Azure.
Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. Prahová hodnota je nastavená pro každý model. Další informace najdete na stránce Kvóty a omezení . Pro úlohy, které vyžadují odchylku nízké latence ve velkém objemu, doporučujeme využít zřizované nabídky nasazení.
Standard
Standardní nasazení poskytují model fakturace plateb za volání u zvoleného modelu. Poskytuje nejrychlejší způsob, jak začít, protože platíte jenom za to, co využíváte. Modely dostupné v jednotlivých oblastech a propustnost můžou být omezené.
Standardní nasazení jsou optimalizovaná pro úlohy s nízkým až středním objemem s vysokou nárazovou zátěží. Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence.
Zřízené
Zřízená nasazení umožňují zadat požadovanou propustnost v nasazení. Služba pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Propustnost se definuje z hlediska zřízených jednotek propustnosti (PTU), což je normalizovaný způsob reprezentace propustnosti pro vaše nasazení. Každý pár verze modelu vyžaduje k nasazení a poskytování různých objemů propustnosti na PTU různé množství PTU. Další informace najdete v článku o konceptech zřízené propustnosti.
Jak zakázat přístup ke globálním nasazením ve vašem předplatném
Služba Azure Policy pomáhá vynutit standardy organizace a vyhodnotit dodržování předpisů s podporou škálování. Skrze řídicí panel dodržování předpisů nabízí agregované zobrazení sloužící k vyhodnocení celkového stavu prostředí s možností přejít k podrobnostem jednotlivých prostředků a podrobnostem zásad. Napomáhá tomu, aby prostředky dodržovaly předpisy, a sice prostřednictvím hromadné nápravy existujících prostředků a automatické nápravy nových prostředků. Přečtěte si další informace o službě Azure Policy a konkrétních integrovaných ovládacích prvcích pro služby AI.
Pomocí následujících zásad můžete zakázat přístup k globálním standardním nasazením Azure OpenAI. Pokud chcete zakázat přístup k globálnímu zřízenému nebo globálnímu dávkovému nasazení Azure, nahraďte GlobalStandard
GlobalProvisionedManaged
názvem skladové položky nebo GlobalBatch
pro zamýšlený název skladové položky.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Modely nasazení
Další informace o vytváření prostředků a nasazování modelů najdete v průvodci vytvořením prostředků.