Dela via


Hanteringsrekommendationer för AI-arbetsbelastningar i Azure-infrastruktur (IaaS)

Den här artikeln innehåller hanteringsrekommendationer för organisationer som kör AI-arbetsbelastningar i Azure-infrastrukturen (IaaS). Effektiv hantering av AI-arbetsbelastningar i Azure kräver kontinuerlig övervakning, optimeringsmetoder och en stark strategi för säkerhetskopiering och återställning. Dessa ansträngningar minimerar stilleståndstiden och säkerställer tillförlitligheten i AI-åtgärder.

Övervaka AI-infrastruktur

Övervakning av AI-infrastruktur omfattar spårning och utvärdering av prestanda, hälsa och tillgänglighet för alla komponenter i en AI-distribution på Azure IaaS. Proaktiv övervakning gör det möjligt för organisationer att identifiera och lösa potentiella problem innan de påverkar åtgärderna.

  • Kontrollera övervakningen som standard. Distribuera nödvändiga Azure Monitor-agenter för virtuella datorer och Azure Virtual Machine Scale Sets, inklusive Azure Arc-anslutna servrar. Anslut dem till den centrala Log Analytics-arbetsytan i hanteringsprenumerationen. Överväg att använda Azure Monitor Baseline Alerts (AMBA).

  • Använd Azure Update Manager. Du kan övervaka windows- och Linux-uppdateringsefterlevnad på dina datorer i Azure och lokalt/på andra molnplattformar (anslutna via Azure Arc) från ett enda hanteringsfönster. Du kan även använda uppdateringshanterare för att göra uppdateringar i realtid eller schemalägga dem inom en definierad underhållsperiod.

  • Övervaka virtuella datorer.Övervaka värddata för virtuella datorer (VM) (fysisk värd) och vm-gästdata (operativsystem och program). Överväg att använda VM Insights för att förenkla registrering, få åtkomst till fördefinierade prestandadiagram och använda beroendemappning. Spåra vm-borttagning av oanvänd kapacitet och underhållshändelser för att effektivt hantera avbrott. Läs mer om schemalagda händelser.

  • Övervaka nätverk.Övervaka och diagnostisera nätverksproblem utan att logga in på dina virtuella datorer. Hämta prestandainformation i realtid på paketnivå. Felsöka prestandaproblem med verktyget Prestandadiagnostik. Spåra topologi, hälsa och mått för alla distribuerade nätverksresurser.

  • Övervaka lagring. Övervaka lagringsprestanda, till exempel lokala SSD:er, anslutna diskar, filresurser och Azure Storage-konton.

  • Använd orchestrator-övervakningsfunktioner (om tillämpligt). Överväg att använda de inbyggda övervakningsfunktionerna hos orkestratorer som Azure CycleCloud, Azure Batch och Azure Kubernetes Service (AKS). Följ vägledningen för den orkestrering du valde:

    • Azure CycleCloud eller Azure CycleCloud-arbetsyta för Slurm: Spåra cpu-, disk- och nätverksmått. Lagra data från Azure CycleCloud-kluster till Log Analytics och skapa anpassade måttinstrumentpaneler. Mer information finns i Övervaka Azure CycleCloud. Node Health-kontroller är en uppsättning automatiserade tester för att säkerställa att HPC/AI-maskinvaran är felfri. Du kan köra den här kontrollen i Azure CycleCloud som en del av klusterdistributionen eller separat med hjälp av GitHub-lagringsplatsens instruktioner. Se till att du är uppmärksam på kompatibilitetsmatrisen i dokumentationen. Kör där det är lämpligt för att se till att du identifierar eventuella noder som inte är felfria innan du kör dina AI-arbetsbelastningar.

    • Azure Batch: Samla in jobb- och aktivitetsmått som aktiva aktiviteter, varaktighet för aktiviteten, starttid för jobb, varaktighet, starttid för aktiviteten. Samla också in poolmått, till exempel inaktiva noder, noder som körs, CPU-användning, disk-I/O. Mer information finns i Azure Batch-övervakning.

    • Azure Kubernetes Service. Använd Azure Monitor för containrar. Övervaka poddprestanda, nodhälsa och resursanvändning. Konfigurera aviseringar och anpassade instrumentpaneler.

Hantera affärskontinuitet och haveriberedskap

Genom att hantera affärskontinuitet och haveriberedskap för AI-program i Azure kan organisationer snabbt återställas från avbrott. Genom att implementera strategier som replikering i realtid, automatisk återställning och regelbundna säkerhetskopieringar skyddar organisationer sin AI-infrastruktur mot dataförlust och driftstopp.

  • Använd Azure Site Recovery. Site Recovery använder realtidsreplikering och återställningsautomation för att replikera arbetsbelastningar mellan regioner. Inbyggda plattformsfunktioner för VM-arbetsbelastningar uppfyller låga RPO- och RTO-krav. Du kan använda Site Recovery för att köra återställningstest utan att påverka produktionsarbetsbelastningar. Du kan också använda Azure Policy för att aktivera replikering och granska VM-skydd.

  • Använd orkestreringsfunktioner (om tillämpligt). Använd orkestreraren för att återställa misslyckade beräkningsnoder. Konfigurera till exempel Azure Batch för att automatiskt försöka utföra uppgifter igen om det uppstår ett fel.

  • Schemalägg säkerhetskopieringar. Kontrollera om du behöver säkerhetskopiera inkrementella ändringar av datauppsättningar och modeller dagligen eller varje vecka. Säkerhetskopior kan också omfatta databaser eller hela datauppsättningar.

  • Kontrollera dataefterlevnad. Se till att din säkerhetskopieringsstrategi följer dataskyddsreglerna. Följ kraven för datahemvist och lagra säkerhetskopior på lämpliga geografiska platser.

  • Skapa ögonblicksbilder. Du kan använda funktionerna i schemaläggaren för att ta ögonblicksbilder. CycleCloud kan till exempel ta ögonblicksbilder av det underliggande programdataarkivet som återställningspunkter.

Gå vidare