Osvědčené postupy pro operace strojového učení (MLOps) ve službě Azure Kubernetes Service (AKS)
Tento článek popisuje osvědčené postupy a důležité informace, které je potřeba vzít v úvahu při použití MLOps v AKS. Další informace o MLOps najdete v tématu Operace strojového učení (MLOps) pro pracovní postupy AI a strojového učení.
Infrastruktura jako kód (IaC)
IaC umožňuje konzistentní a reprodukovatelné zřizování a správu infrastruktury pro řadu typů aplikací. Díky inteligentním nasazením aplikací se vaše implementace IaC může v rámci kanálu AI změnit, protože výpočetní výkon a prostředky potřebné pro odvozování, obsluhu, trénování a vyladění modelů se můžou lišit. Definování a správa verzí šablon IaC pro vaše vývojářské týmy AI může pomoct zajistit konzistenci a nákladovou efektivitu napříč typy úloh a zároveň demystizovat jednotlivé požadavky na hardware a urychlit proces nasazení.
Vytváření kontejnerů
Správa váhy, metadat a konfigurací modelu v imagích kontejnerů umožňuje přenositelnost, zjednodušenou správu verzí a snížení nákladů na úložiště v průběhu času. Pomocí kontejnerizace můžete:
- Využijte existující image kontejnerů, zejména pro velké jazykové modely (LLMs) v řádu milionů až miliardy parametrů ve velikosti a stabilní modely difúze uložené v zabezpečených registrech kontejnerů.
- Vyhněte se kritickým bodům selhání (SPOF) ve vašem kanálu s použitím několika jednoduchých kontejnerů, které obsahují jedinečné závislosti pro každou úlohu, místo abyste zachovali jednu velkou image.
- Ukládejte velké datové sady textu nebo obrázku mimo základní image kontejneru a v případě potřeby je v případě potřeby na ně odkazujte.
Začněte s operátorem sady nástrojů Kubernetes AI a nasaďte vysoce výkonné LLM v AKS během několika minut.
Správa modelů a správa verzí
Správa modelů a správa verzí jsou nezbytné pro sledování změn modelů v průběhu času. Při správě verzí modelů můžete:
- Udržujte konzistenci napříč kontejnery modelu pro snadné nasazení v různých prostředích.
- Používejte metody peFT (parameter-efficient fine-tuning), které iterují rychleji na podmnožině hmotností modelu a udržují nové verze v jednoduchých kontejnerech.
Automation
Automatizace je klíčem ke snížení ručních chyb, zvýšení efektivity a zajištění konzistence v rámci životního cyklu ML. Automatizací úkolů můžete:
- Integrujte nástroje pro upozorňování, které automaticky aktivují tok vektorového příjmu dat jako nové toky dat do vaší aplikace.
- Nastavte prahové hodnoty výkonu modelu pro sledování snížení výkonu a aktivaci kanálů opětovného trénování.
Škálovatelnost a správa prostředků
Škálovatelnost a správa prostředků jsou důležité pro zajištění toho, aby váš kanál AI mohl zpracovávat požadavky vaší aplikace. Optimalizací využití prostředků můžete:
- Integrujte nástroje, které efektivně využívají přidělené prostředky procesoru, GPU a paměti prostřednictvím distribuovaného computingu a několika úrovní paralelismu (například data, model a paralelismus kanálu).
- Povolte automatické škálování výpočetních prostředků tak, aby podporovalo svazky požadavků na velký model ve špičce a v hodinách mimo špičku vertikálně snížit kapacitu.
- Podobně jako u tradičních aplikací naplánujte zotavení po havárii podle osvědčených postupů pro odolnost a spolehlivost AKS.
Zabezpečení a dodržování předpisů
Zabezpečení a dodržování předpisů jsou důležité pro ochranu dat a zajištění toho, aby kanál AI splňoval zákonné požadavky. Implementací osvědčených postupů zabezpečení a dodržování předpisů můžete:
- Integrujte běžnou kontrolu ohrožení zabezpečení a ohrožení zabezpečení (CVE) za účelem zjištění běžných ohrožení zabezpečení u imagí kontejnerů opensourcového modelu.
- Použijte Microsoft Defender for Containers pro image kontejnerů modelu uložené ve službě Azure Container Registry.
- Udržujte záznam auditu přijatých dat, změn modelu a metrik, aby zůstaly v souladu se zásadami vaší organizace.
Další kroky
Seznamte se s osvědčenými postupy v jiných oblastech nasazení a operací vaší aplikace v AKS:
Azure Kubernetes Service