Hanteringsrekommendationer för AI-arbetsbelastningar i Azure-infrastruktur (IaaS)
Den här artikeln innehåller hanteringsrekommendationer för organisationer som kör AI-arbetsbelastningar i Azure-infrastrukturen (IaaS). Effektiv hantering av AI-arbetsbelastningar i Azure kräver kontinuerlig övervakning, optimeringsmetoder och en stark strategi för säkerhetskopiering och återställning. Dessa ansträngningar minimerar stilleståndstiden och säkerställer tillförlitligheten i AI-åtgärder.
Övervaka AI-infrastruktur
Övervakning av AI-infrastruktur omfattar spårning och utvärdering av prestanda, hälsa och tillgänglighet för alla komponenter i en AI-distribution på Azure IaaS. Proaktiv övervakning gör det möjligt för organisationer att identifiera och lösa potentiella problem innan de påverkar åtgärderna.
Kontrollera övervakningen som standard. Distribuera nödvändiga Azure Monitor-agenter för virtuella datorer och Azure Virtual Machine Scale Sets, inklusive Azure Arc-anslutna servrar. Anslut dem till den centrala Log Analytics-arbetsytan i hanteringsprenumerationen. Överväg att använda Azure Monitor Baseline Alerts (AMBA).
Använd Azure Update Manager. Du kan övervaka windows- och Linux-uppdateringsefterlevnad på dina datorer i Azure och lokalt/på andra molnplattformar (anslutna via Azure Arc) från ett enda hanteringsfönster. Du kan även använda uppdateringshanterare för att göra uppdateringar i realtid eller schemalägga dem inom en definierad underhållsperiod.
Övervaka virtuella datorer.Övervaka värddata för virtuella datorer (VM) (fysisk värd) och vm-gästdata (operativsystem och program). Överväg att använda VM Insights för att förenkla registrering, få åtkomst till fördefinierade prestandadiagram och använda beroendemappning. Spåra vm-borttagning av oanvänd kapacitet och underhållshändelser för att effektivt hantera avbrott. Läs mer om schemalagda händelser.
Övervaka nätverk.Övervaka och diagnostisera nätverksproblem utan att logga in på dina virtuella datorer. Hämta prestandainformation i realtid på paketnivå. Felsöka prestandaproblem med verktyget Prestandadiagnostik. Spåra topologi, hälsa och mått för alla distribuerade nätverksresurser.
Övervaka lagring. Övervaka lagringsprestanda, till exempel lokala SSD:er, anslutna diskar, filresurser och Azure Storage-konton.
Använd orchestrator-övervakningsfunktioner (om tillämpligt). Överväg att använda de inbyggda övervakningsfunktionerna hos orkestratorer som Azure CycleCloud, Azure Batch och Azure Kubernetes Service (AKS). Följ vägledningen för den orkestrering du valde:
Azure CycleCloud eller Azure CycleCloud-arbetsyta för Slurm: Spåra cpu-, disk- och nätverksmått. Lagra data från Azure CycleCloud-kluster till Log Analytics och skapa anpassade måttinstrumentpaneler. Mer information finns i Övervaka Azure CycleCloud. Node Health-kontroller är en uppsättning automatiserade tester för att säkerställa att HPC/AI-maskinvaran är felfri. Du kan köra den här kontrollen i Azure CycleCloud som en del av klusterdistributionen eller separat med hjälp av GitHub-lagringsplatsens instruktioner. Se till att du är uppmärksam på kompatibilitetsmatrisen i dokumentationen. Kör där det är lämpligt för att se till att du identifierar eventuella noder som inte är felfria innan du kör dina AI-arbetsbelastningar.
Azure Batch: Samla in jobb- och aktivitetsmått som aktiva aktiviteter, varaktighet för aktiviteten, starttid för jobb, varaktighet, starttid för aktiviteten. Samla också in poolmått, till exempel inaktiva noder, noder som körs, CPU-användning, disk-I/O. Mer information finns i Azure Batch-övervakning.
Azure Kubernetes Service. Använd Azure Monitor för containrar. Övervaka poddprestanda, nodhälsa och resursanvändning. Konfigurera aviseringar och anpassade instrumentpaneler.
Hantera affärskontinuitet och haveriberedskap
Genom att hantera affärskontinuitet och haveriberedskap för AI-program i Azure kan organisationer snabbt återställas från avbrott. Genom att implementera strategier som replikering i realtid, automatisk återställning och regelbundna säkerhetskopieringar skyddar organisationer sin AI-infrastruktur mot dataförlust och driftstopp.
Använd Azure Site Recovery. Site Recovery använder realtidsreplikering och återställningsautomation för att replikera arbetsbelastningar mellan regioner. Inbyggda plattformsfunktioner för VM-arbetsbelastningar uppfyller låga RPO- och RTO-krav. Du kan använda Site Recovery för att köra återställningstest utan att påverka produktionsarbetsbelastningar. Du kan också använda Azure Policy för att aktivera replikering och granska VM-skydd.
Använd orkestreringsfunktioner (om tillämpligt). Använd orkestreraren för att återställa misslyckade beräkningsnoder. Konfigurera till exempel Azure Batch för att automatiskt försöka utföra uppgifter igen om det uppstår ett fel.
Schemalägg säkerhetskopieringar. Kontrollera om du behöver säkerhetskopiera inkrementella ändringar av datauppsättningar och modeller dagligen eller varje vecka. Säkerhetskopior kan också omfatta databaser eller hela datauppsättningar.
Kontrollera dataefterlevnad. Se till att din säkerhetskopieringsstrategi följer dataskyddsreglerna. Följ kraven för datahemvist och lagra säkerhetskopior på lämpliga geografiska platser.
Skapa ögonblicksbilder. Du kan använda funktionerna i schemaläggaren för att ta ögonblicksbilder. CycleCloud kan till exempel ta ögonblicksbilder av det underliggande programdataarkivet som återställningspunkter.