Sdílet prostřednictvím


Doporučení pro správu pro úlohy AI v infrastruktuře Azure (IaaS)

Tento článek obsahuje doporučení pro správu pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Efektivní správa úloh AI v Azure vyžaduje nepřetržité monitorování, optimalizační postupy a silnou strategii zálohování a obnovení. Tyto snahy minimalizují výpadky a zajišťují spolehlivost operací umělé inteligence.

Monitorování infrastruktury AI

Monitorování infrastruktury AI zahrnuje sledování a vyhodnocení výkonu, stavu a dostupnosti všech komponent v nasazení AI v Azure IaaS. Proaktivní monitorování umožňuje organizacím zjišťovat a řešit potenciální problémy předtím, než ovlivní provoz.

  • Ve výchozím nastavení se ujistěte, že je monitorování monitorované. Nasaďte požadované agenty Azure Monitoru pro virtuální počítače a škálovací sady virtuálních počítačů Azure, včetně připojených serverů Azure Arc. Připojte je k centrálnímu pracovnímu prostoru služby Log Analytics v předplatném pro správu. Zvažte použití upozornění standardních hodnot služby Azure Monitor (AMBA).

  • Použijte Azure Update Manager. Dodržování předpisů aktualizací windows a Linuxu můžete monitorovat na počítačích v Azure a místně nebo na jiných cloudových platformách (připojených službou Azure Arc) z jediného podokna správy. Pomocí Update Manageru můžete provádět aktualizace v reálném čase nebo je naplánovat v rámci definovaného časového období údržby.

  • Monitorování virtuálních počítačůMonitorování dat hostitele virtuálního počítače (fyzického hostitele) a dat hosta virtuálního počítače (operační systém a aplikace) Zvažte použití přehledů virtuálních počítačů ke zjednodušení onboardingu, přístupu k předdefinovaným grafům výkonu a využití mapování závislostí. Sledujte vyřazování spotových virtuálních počítačů a události údržby, abyste mohli efektivně spravovat přerušení. Přečtěte si další informace o plánovaných událostech.

  • Monitorování sítíMonitorujte a diagnostikujte problémy se sítěmi bez přihlášení k virtuálním počítačům. Získejte informace o výkonu v reálném čase na úrovni paketů. Řešení potíží s výkonem pomocí nástroje Diagnostika výkonu Sledujte topologii, stav a metriky pro všechny nasazené síťové prostředky.

  • Monitorujte úložiště. Monitorujte výkon úložiště, jako jsou místní disky SSD, připojené disky, sdílené složky a účty úložiště Azure.

  • Použijte funkce monitorování orchestrátoru (pokud je k dispozici). Zvažte použití integrovaných možností monitorování orchestrátorů, jako jsou Azure CycleCloud, Azure Batch a Azure Kubernetes Service (AKS). Postupujte podle pokynů pro orchestrátor, který jste zvolili:

    • Azure CycleCloud nebo Pracovní prostor Azure CycleCloud pro Slurm: Sledování metrik procesoru, disku a sítě Ukládejte data z clusterů Azure CycleCloud do Log Analytics a vytvořte vlastní řídicí panely metrik. Další informace najdete v tématu Monitorování Azure CycleCloudu. Kontroly stavu uzlů jsou sada automatizovaných testů, které zajišťují, že je hardware PROSTŘEDÍ HPC/AI v pořádku. Tuto kontrolu můžete spustit v Azure CycleCloudu jako součást nasazení clusteru nebo samostatně pomocí pokynů k úložišti GitHub. Ujistěte se, že v dokumentaci věnujte pozornost matici kompatibility. Před spuštěním úloh AI spusťte všechny uzly, které nejsou v pořádku, spusťte tam, kde je to vhodné.

    • Azure Batch: Shromažďování metrik úloh a úkolů, jako jsou aktivní úkoly, doba trvání úkolu, čas zahájení úlohy, doba trvání, čas zahájení úkolu. Shromážděte také metriky fondu, jako jsou nečinné uzly, spuštěné uzly, využití procesoru, vstupně-výstupní operace disku. Další informace najdete v tématu Monitorování služby Azure Batch.

    • Azure Kubernetes Service. Použijte Azure Monitor pro kontejnery. Monitorujte výkon podů, stav uzlu a využití prostředků. Nastavení upozornění a vlastních řídicích panelů

Správa provozní kontinuity a zotavení po havárii

Správa provozní kontinuity a zotavení po havárii pro aplikace umělé inteligence v Azure zajišťuje, aby se organizace mohly rychle zotavit z přerušení. Implementací strategií, jako je replikace v reálném čase, automatizované obnovení a pravidelné zálohování, chrání organizace svou infrastrukturu AI před ztrátou dat a provozními výpadky.

  • Použijte Azure Site Recovery. Site Recovery využívá replikaci a automatizaci obnovení v reálném čase k replikaci úloh napříč oblastmi. Integrované funkce platformy pro úlohy virtuálních počítačů splňují nízké požadavky cíle bodu obnovení a RTO. Site Recovery můžete použít ke spouštění postupů obnovení, aniž by to mělo vliv na produkční úlohy. Azure Policy můžete také použít k povolení replikace a auditování ochrany virtuálních počítačů.

  • Používejte možnosti orchestrátoru (pokud je k dispozici). Pomocí orchestrátoru obnovte neúspěšné výpočetní uzly. Pokud dojde například k selhání, nakonfigurujte Službu Azure Batch tak, aby automaticky zopakovává úlohy .

  • Naplánujte zálohování. Zjistěte, jestli potřebujete zálohovat přírůstkové změny datových sad a modelů denně nebo týdně. Zálohy můžou zahrnovat také databáze nebo celé datové sady.

  • Zajistěte dodržování předpisů dat. Ujistěte se, že vaše strategie zálohování splňuje předpisy pro ochranu dat. V souladu s požadavky na rezidenci dat a uložte zálohy v příslušných geografických umístěních.

  • Vytváření snímků Pomocí funkcí plánovače můžete pořizovat snímky. Například CycleCloud může jako body obnovení pořídit snímky podkladového úložiště dat aplikace k určitému bodu v čase.

Další krok