Doporučení pro výpočty pro úlohy AI v infrastruktuře Azure (IaaS)

Článek
11/01/2024

Tento článek obsahuje výpočetní doporučení pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Upřednostňovaným přístupem je zahájit přechod na AI s řešeními Azure AI typu platforma jako služba (PaaS). Pokud ale máte přístup k grafickým procesorům Azure, postupujte podle těchto pokynů a spusťte úlohy AI v Azure IaaS.

Úlohy umělé inteligence vyžadují specializované virtuální počítače pro zpracování vysokých výpočetních požadavků a zpracování velkých objemů dat. Volba správných virtuálních počítačů optimalizuje využití prostředků a urychlí vývoj a nasazení modelů AI. Následující tabulka obsahuje přehled doporučených možností výpočetních prostředků.

Fáze AI	Image virtuálního počítače	Generativní AI	Negenerativní AI (komplexní modely)	Negenerativní AI (malé modely)
Trénování modelů AI	Datová Věda Virtual Machines	GPU (preferuje rodinu ND. Alternativně použijte řadu síťových adaptérů s virtuálními počítači propojenými přes ethernet).	GPU (preferuje rodinu ND. Alternativně použijte řadu síťových adaptérů s virtuálními počítači propojenými přes ethernet).	Optimalizováno pro paměť (procesor)
Odvozování modelů AI	Datová Věda Virtual Machines	GPU (řada NC nebo ND)	GPU (řada NC nebo ND)	Optimalizované pro výpočty (cpu)

Výběr správné image virtuálního počítače

Zvolte vhodnou image virtuálního počítače, jako je například Datová Věda Virtual Machines, a získejte rychlý přístup k předkonfigurovaným nástrojům pro úlohy AI. Tato volba šetří čas a prostředky a zároveň poskytuje software potřebný k efektivnímu zpracování umělé inteligence.

Začněte s imagemi Datová Věda Virtual Machines. Image virtuálního počítače Datová Věda nabízí předem nakonfigurovaný přístup k nástrojům pro datové vědy. Mezi tyto nástroje patří PyTorch, TensorFlow, scikit-learn, Jupyter, Visual Studio Code, Azure CLI a PySpark. Při použití s grafickými procesory zahrnuje image také ovladače Nvidia, CUDA Toolkit a cuDNN. Tyto obrázky slouží jako základní obrázek. Pokud potřebujete další software, přidejte ho prostřednictvím skriptu při spuštění nebo vložení do vlastní image. Udržují kompatibilitu s vašimi řešeními orchestrace.
Podle potřeby vyhledejte alternativní obrázky. Pokud image virtuálního počítače Datová Věda nevyhovuje vašim potřebám, vyhledejte alternativní image pomocí Azure Marketplace nebo jiných metod vyhledávání. U grafických procesorů můžete například potřebovat image Linuxu, které zahrnují ovladače InfiniBand, ovladače NVIDIA, komunikační knihovny, knihovny MPI a monitorovací nástroje.

Výběr velikosti virtuálního počítače

Výběr odpovídající velikosti virtuálního počítače odpovídá složitosti modelu AI, velikosti dat a omezením nákladů. Porovnávání hardwaru s potřebami trénování nebo odvozování maximalizuje efektivitu a zabraňuje nedostatečnému využití nebo přetížení.

Zužte možnosti virtuálního počítače. Zvolte nejnovější skladové položky virtuálních počítačů pro optimální dobu trénování a odvozování. Pro trénování vyberte skladové položky, které podporují propojení RDMA a GPU pro vysokorychlostní přenos dat mezi grafickými procesory. Pro odvozování nepoužívejte skladové položky s InfiniBand, což je zbytečné. Mezi příklady patří řada ND MI300X v5, řada ND H100 v5, NDm A100 v4-series a ND A100 v4-series.
Zkontrolujte ceny virtuálních počítačů. Na stránce s cenami virtuálních počítačů s Linuxem a Windows můžete použít přehled obecných nákladů. Podrobný odhad potřebujete pomocí cenové kalkulačky Azure.
Zvažte spotové instance.Spotové instance jsou nákladově efektivní pro scénáře odvozování s minimálním rizikem ztráty dat. Spotové instance nabízejí významné úspory díky využití nevyužité kapacity datacentra se slevou. Tuto kapacitu ale můžete kdykoli uvolnit, takže spotové instance jsou nejvhodnější pro úlohy, které můžou zvládnout přerušení. Pravidelně kontrolujte data, abyste minimalizovali ztrátu při vyřazení. Informace najdete v tématu Použití spotových virtuálních počítačů v Azure CycleCloudu.

Volba řešení orchestrace výpočetních prostředků

Řešení orchestrace výpočetních prostředků usnadňují správu úloh umělé inteligence napříč clustery virtuálních počítačů. I u jednoduchých nasazení může orchestrátor pomoct snížit náklady a zajistit, aby prostředí bylo reprodukovatelné. Orchestrátory pomáhají zajistit, abyste používali jenom výpočetní prostředky, které potřebujete po určitou dobu. Vyberte nástroj pro orchestraci na základě plánování, kontejnerizace a škálování, který potřebuje ke zlepšení operací a škálovatelnosti.

Azure CycleCloud použijte pro opensourcové plánovače. Azure CycleCloud je ideální pro opensourcové plánovače, jako je Slurm, Grid Engine nebo Torque/PBS. Poskytuje flexibilní správu clusterů, přizpůsobitelné konfigurace a pokročilé možnosti plánování. Virtuální počítače v rámci clusteru potřebují konfiguraci pro spouštění úloh AI. Virtuální počítače pro CycleCloud a Batch nejsou trvalé. Orchestrátor vytvoří a odebere virtuální počítače v případě potřeby, aby pomohl s úsporami nákladů. Další informace najdete v pracovním prostoru Azure CycleCloud pro Slum.
Azure Batch můžete použít k integrovanému plánování. Azure Batch nabízí integrované funkce plánování, které nepotřebují další instalaci nebo správu softwaru. Má cenový model spotřeby a žádné licenční poplatky. Podporuje také nativně kontejnerizované úlohy. Osvědčené postupy nasazení najdete v tématu Akcelerátor služby Azure Batch.
Ke škálování kontejnerů použijte Azure Kubernetes Service (AKS). AKS je spravovaná služba pro nasazování, škálování a správu kontejnerů v clusteru. Je vhodný pro spouštění úloh AI ve velkém měřítku. Další informace najdete v tématu Použití služby Azure Kubernetes Service k hostování úloh založených na GPU.
Ruční orchestrace úloh pro jednodušší úlohy Pokud je potřeba orchestrace minimální, spravujte prostředky AI ručně. U malých úloh zvažte následující kroky:
- Definujte pracovní postup. Seznamte se s kompletním pracovním postupem, včetně závislostí a pořadí úloh. Zvažte, jak zpracovávat selhání v jakémkoli kroku.
- Protokolování a monitorování úloh Implementujte pro své úlohy jasné architektury protokolování a monitorování.
- Ověřte požadavky. Ujistěte se, že vaše prostředí splňuje všechny požadavky na pracovní postupy, včetně potřebných knihoven a architektur.
- Použijte správu verzí. Sledování a správa změn pomocí správy verzí
- Automatizace úloh Pomocí skriptů můžete automatizovat předběžné zpracování, trénování a vyhodnocení dat.

Zvažte kontejnery

Kontejnery poskytují konzistentní a reprodukovatelné prostředí, které se efektivně škáluje. Kontejnery zjednodušují přechody mezi prostředími, což je nezbytné pro škálovatelná řešení AI.

Nainstalujte ovladače. Ujistěte se, že jsou nainstalované potřebné ovladače pro povolení funkčnosti kontejneru v různých scénářích. Pro konfigurace clusteru se často vyžadují nástroje, jako jsou Pyxis a Enroot.
Použijte SADU NÁSTROJŮ NVIDIA Container Toolkit. Tato sada nástrojů umožňuje prostředky GPU v rámci kontejnerů. Nainstalujte všechny požadované ovladače, jako jsou CUDA a ovladače GPU, a pro spouštění úloh AI použijte upřednostňovaný modul runtime kontejneru a modul.

Další krok

IaaS AI úložiště

Sdílet prostřednictvím