Osvědčené postupy pro operace strojového učení (MLOps) ve službě Azure Kubernetes Service (AKS)

Článek
10/23/2024

Tento článek popisuje osvědčené postupy a důležité informace, které je potřeba vzít v úvahu při použití MLOps v AKS. Další informace o MLOps najdete v tématu Operace strojového učení (MLOps) pro pracovní postupy AI a strojového učení.

Infrastruktura jako kód (IaC)

IaC umožňuje konzistentní a reprodukovatelné zřizování a správu infrastruktury pro řadu typů aplikací. Díky inteligentním nasazením aplikací se vaše implementace IaC může v rámci kanálu AI změnit, protože výpočetní výkon a prostředky potřebné pro odvozování, obsluhu, trénování a vyladění modelů se můžou lišit. Definování a správa verzí šablon IaC pro vaše vývojářské týmy AI může pomoct zajistit konzistenci a nákladovou efektivitu napříč typy úloh a zároveň demystizovat jednotlivé požadavky na hardware a urychlit proces nasazení.

Vytváření kontejnerů

Správa váhy, metadat a konfigurací modelu v imagích kontejnerů umožňuje přenositelnost, zjednodušenou správu verzí a snížení nákladů na úložiště v průběhu času. Pomocí kontejnerizace můžete:

Využijte existující image kontejnerů, zejména pro velké jazykové modely (LLMs) v řádu milionů až miliardy parametrů ve velikosti a stabilní modely difúze uložené v zabezpečených registrech kontejnerů.
Vyhněte se kritickým bodům selhání (SPOF) ve vašem kanálu s použitím několika jednoduchých kontejnerů, které obsahují jedinečné závislosti pro každou úlohu, místo abyste zachovali jednu velkou image.
Ukládejte velké datové sady textu nebo obrázku mimo základní image kontejneru a v případě potřeby je v případě potřeby na ně odkazujte.

Začněte s operátorem sady nástrojů Kubernetes AI a nasaďte vysoce výkonné LLM v AKS během několika minut.

Správa modelů a správa verzí

Správa modelů a správa verzí jsou nezbytné pro sledování změn modelů v průběhu času. Při správě verzí modelů můžete:

Udržujte konzistenci napříč kontejnery modelu pro snadné nasazení v různých prostředích.
Používejte metody peFT (parameter-efficient fine-tuning), které iterují rychleji na podmnožině hmotností modelu a udržují nové verze v jednoduchých kontejnerech.

Automation

Automatizace je klíčem ke snížení ručních chyb, zvýšení efektivity a zajištění konzistence v rámci životního cyklu ML. Automatizací úkolů můžete:

Integrujte nástroje pro upozorňování, které automaticky aktivují tok vektorového příjmu dat jako nové toky dat do vaší aplikace.
Nastavte prahové hodnoty výkonu modelu pro sledování snížení výkonu a aktivaci kanálů opětovného trénování.

Škálovatelnost a správa prostředků

Škálovatelnost a správa prostředků jsou důležité pro zajištění toho, aby váš kanál AI mohl zpracovávat požadavky vaší aplikace. Optimalizací využití prostředků můžete:

Integrujte nástroje, které efektivně využívají přidělené prostředky procesoru, GPU a paměti prostřednictvím distribuovaného computingu a několika úrovní paralelismu (například data, model a paralelismus kanálu).
Povolte automatické škálování výpočetních prostředků tak, aby podporovalo svazky požadavků na velký model ve špičce a v hodinách mimo špičku vertikálně snížit kapacitu.
Podobně jako u tradičních aplikací naplánujte zotavení po havárii podle osvědčených postupů pro odolnost a spolehlivost AKS.

Zabezpečení a dodržování předpisů

Zabezpečení a dodržování předpisů jsou důležité pro ochranu dat a zajištění toho, aby kanál AI splňoval zákonné požadavky. Implementací osvědčených postupů zabezpečení a dodržování předpisů můžete:

Integrujte běžnou kontrolu ohrožení zabezpečení a ohrožení zabezpečení (CVE) za účelem zjištění běžných ohrožení zabezpečení u imagí kontejnerů opensourcového modelu.
- Použijte Microsoft Defender for Containers pro image kontejnerů modelu uložené ve službě Azure Container Registry.
Udržujte záznam auditu přijatých dat, změn modelu a metrik, aby zůstaly v souladu se zásadami vaší organizace.

Další kroky

Seznamte se s osvědčenými postupy v jiných oblastech nasazení a operací vaší aplikace v AKS:

Sdílet prostřednictvím