Doporučení pro správu pro úlohy AI v infrastruktuře Azure (IaaS)

Článek
11/01/2024

Tento článek obsahuje doporučení pro správu pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Efektivní správa úloh AI v Azure vyžaduje nepřetržité monitorování, optimalizační postupy a silnou strategii zálohování a obnovení. Tyto snahy minimalizují výpadky a zajišťují spolehlivost operací umělé inteligence.

Monitorování infrastruktury AI

Monitorování infrastruktury AI zahrnuje sledování a vyhodnocení výkonu, stavu a dostupnosti všech komponent v nasazení AI v Azure IaaS. Proaktivní monitorování umožňuje organizacím zjišťovat a řešit potenciální problémy předtím, než ovlivní provoz.

Ve výchozím nastavení se ujistěte, že je monitorování monitorované. Nasaďte požadované agenty Azure Monitoru pro virtuální počítače a škálovací sady virtuálních počítačů Azure, včetně připojených serverů Azure Arc. Připojte je k centrálnímu pracovnímu prostoru služby Log Analytics v předplatném pro správu. Zvažte použití upozornění standardních hodnot služby Azure Monitor (AMBA).
Použijte Azure Update Manager. Dodržování předpisů aktualizací windows a Linuxu můžete monitorovat na počítačích v Azure a místně nebo na jiných cloudových platformách (připojených službou Azure Arc) z jediného podokna správy. Pomocí Update Manageru můžete provádět aktualizace v reálném čase nebo je naplánovat v rámci definovaného časového období údržby.
Monitorování virtuálních počítačůMonitorování dat hostitele virtuálního počítače (fyzického hostitele) a dat hosta virtuálního počítače (operační systém a aplikace) Zvažte použití přehledů virtuálních počítačů ke zjednodušení onboardingu, přístupu k předdefinovaným grafům výkonu a využití mapování závislostí. Sledujte vyřazování spotových virtuálních počítačů a události údržby, abyste mohli efektivně spravovat přerušení. Přečtěte si další informace o plánovaných událostech.
Monitorování sítíMonitorujte a diagnostikujte problémy se sítěmi bez přihlášení k virtuálním počítačům. Získejte informace o výkonu v reálném čase na úrovni paketů. Řešení potíží s výkonem pomocí nástroje Diagnostika výkonu Sledujte topologii, stav a metriky pro všechny nasazené síťové prostředky.
Monitorujte úložiště. Monitorujte výkon úložiště, jako jsou místní disky SSD, připojené disky, sdílené složky a účty úložiště Azure.
Použijte funkce monitorování orchestrátoru (pokud je k dispozici). Zvažte použití integrovaných možností monitorování orchestrátorů, jako jsou Azure CycleCloud, Azure Batch a Azure Kubernetes Service (AKS). Postupujte podle pokynů pro orchestrátor, který jste zvolili:
- Azure CycleCloud nebo Pracovní prostor Azure CycleCloud pro Slurm: Sledování metrik procesoru, disku a sítě Ukládejte data z clusterů Azure CycleCloud do Log Analytics a vytvořte vlastní řídicí panely metrik. Další informace najdete v tématu Monitorování Azure CycleCloudu. Kontroly stavu uzlů jsou sada automatizovaných testů, které zajišťují, že je hardware PROSTŘEDÍ HPC/AI v pořádku. Tuto kontrolu můžete spustit v Azure CycleCloudu jako součást nasazení clusteru nebo samostatně pomocí pokynů k úložišti GitHub. Ujistěte se, že v dokumentaci věnujte pozornost matici kompatibility. Před spuštěním úloh AI spusťte všechny uzly, které nejsou v pořádku, spusťte tam, kde je to vhodné.
- Azure Batch: Shromažďování metrik úloh a úkolů, jako jsou aktivní úkoly, doba trvání úkolu, čas zahájení úlohy, doba trvání, čas zahájení úkolu. Shromážděte také metriky fondu, jako jsou nečinné uzly, spuštěné uzly, využití procesoru, vstupně-výstupní operace disku. Další informace najdete v tématu Monitorování služby Azure Batch.
- Azure Kubernetes Service. Použijte Azure Monitor pro kontejnery. Monitorujte výkon podů, stav uzlu a využití prostředků. Nastavení upozornění a vlastních řídicích panelů

Správa provozní kontinuity a zotavení po havárii

Správa provozní kontinuity a zotavení po havárii pro aplikace umělé inteligence v Azure zajišťuje, aby se organizace mohly rychle zotavit z přerušení. Implementací strategií, jako je replikace v reálném čase, automatizované obnovení a pravidelné zálohování, chrání organizace svou infrastrukturu AI před ztrátou dat a provozními výpadky.

Použijte Azure Site Recovery. Site Recovery využívá replikaci a automatizaci obnovení v reálném čase k replikaci úloh napříč oblastmi. Integrované funkce platformy pro úlohy virtuálních počítačů splňují nízké požadavky cíle bodu obnovení a RTO. Site Recovery můžete použít ke spouštění postupů obnovení, aniž by to mělo vliv na produkční úlohy. Azure Policy můžete také použít k povolení replikace a auditování ochrany virtuálních počítačů.
Používejte možnosti orchestrátoru (pokud je k dispozici). Pomocí orchestrátoru obnovte neúspěšné výpočetní uzly. Pokud dojde například k selhání, nakonfigurujte Službu Azure Batch tak, aby automaticky zopakovává úlohy .
Naplánujte zálohování. Zjistěte, jestli potřebujete zálohovat přírůstkové změny datových sad a modelů denně nebo týdně. Zálohy můžou zahrnovat také databáze nebo celé datové sady.
Zajistěte dodržování předpisů dat. Ujistěte se, že vaše strategie zálohování splňuje předpisy pro ochranu dat. V souladu s požadavky na rezidenci dat a uložte zálohy v příslušných geografických umístěních.
Vytváření snímků Pomocí funkcí plánovače můžete pořizovat snímky. Například CycleCloud může jako body obnovení pořídit snímky podkladového úložiště dat aplikace k určitému bodu v čase.

Další krok

Zabezpečení IaaS AI

Sdílet prostřednictvím

Doporučení pro správu pro úlohy AI v infrastruktuře Azure (IaaS)

Monitorování infrastruktury AI

Správa provozní kontinuity a zotavení po havárii

Další krok

Váš názor

Další materiály