Aanbevelingen voor beheer voor AI-workloads in Azure-infrastructuur (IaaS)

Artikel
11/01/2024

Dit artikel bevat beheeraan aanbevelingen voor organisaties die AI-workloads uitvoeren op Azure-infrastructuur (IaaS). Effectief beheer van AI-workloads in Azure vereist continue bewaking, optimalisatieprocedures en een sterke back-up- en herstelstrategie. Deze inspanningen minimaliseren downtime en zorgen voor betrouwbaarheid in AI-bewerkingen.

AI-infrastructuur bewaken

Het bewaken van de AI-infrastructuur omvat het bijhouden en evalueren van de prestaties, status en beschikbaarheid van alle onderdelen in een AI-implementatie op Azure IaaS. Met proactieve bewaking kunnen organisaties potentiële problemen detecteren en oplossen voordat ze bewerkingen beïnvloeden.

Zorg ervoor dat bewaking standaard wordt gecontroleerd. Implementeer de vereiste Azure Monitor-agents voor virtuele machines en Virtuele-machineschaalsets van Azure, inclusief met Azure Arc verbonden servers. Verbind ze met de centrale Log Analytics-werkruimte in het beheerabonnement. Overweeg het gebruik van Azure Monitor Baseline Alerts (AMBA).
Gebruik Azure Update Manager. U kunt de naleving van Windows- en Linux-updates bewaken op uw computers in Azure en on-premises/op andere cloudplatforms (verbonden met Azure Arc) vanuit één beheervenster. U kunt Update Manager ook gebruiken om realtime updates uit te voeren of om ze in te plannen binnen een gedefinieerd onderhoudsvenster.
Virtuele machines bewaken.Vm-hostgegevens (fysieke host) en VM-gastgegevens (besturingssysteem en toepassing) bewaken. Overweeg vm-inzichten te gebruiken om de onboarding te vereenvoudigen, vooraf gedefinieerde prestatiegrafieken te openen en afhankelijkheidstoewijzing te gebruiken. Spot VM-verwijderingen en onderhoudsevenementen bijhouden om onderbrekingen effectief te beheren. Meer informatie over geplande gebeurtenissen.
Netwerken bewaken.Netwerkproblemen bewaken en diagnosticeren zonder u aan te melden bij uw VM's. Krijg realtime prestatiegegevens op pakketniveau. Prestatieproblemen oplossen met het hulpprogramma Prestatiediagnose. Topologie, status en metrische gegevens bijhouden voor alle geïmplementeerde netwerkresources.
Opslag bewaken. Bewaak de prestaties van opslag, zoals lokale SCHIJVEN, gekoppelde schijven, bestandsshares en Azure-opslagaccounts.
Orchestrator-bewakingsmogelijkheden gebruiken (indien van toepassing). Overweeg het gebruik van de ingebouwde bewakingsmogelijkheden van orchestrators zoals Azure CycleCloud, Azure Batch en Azure Kubernetes Service (AKS). Volg de richtlijnen voor de orchestrator die u hebt gekozen:
- Azure CycleCloud- of Azure CycleCloud-werkruimte voor Slurm: Metrische gegevens van CPU, schijf en netwerk bijhouden. Sla gegevens van Azure CycleCloud-clusters op in Log Analytics en maak aangepaste dashboards voor metrische gegevens. Zie Bewaking van Azure CycleCloud voor meer informatie. Knooppuntstatuscontroles zijn een set geautomatiseerde tests om ervoor te zorgen dat uw HPC/AI-hardware in orde is. U kunt deze controle uitvoeren in Azure CycleCloud als onderdeel van de clusterimplementatie of afzonderlijk met behulp van de instructies voor de GitHub-opslagplaats. Zorg ervoor dat u aandacht besteedt aan de compatibiliteitsmatrix in de documentatie. Voer waar nodig uit om ervoor te zorgen dat u eventuele beschadigde knooppunten identificeert voordat u uw AI-workloads uitvoert.
- Azure Batch: verzamel metrische gegevens voor taken en taken, zoals actieve taken, taakduur, begintijd van taak, duur, begintijd van taak. Verzamel ook metrische gegevens van de pool, zoals niet-actieve knooppunten, actieve knooppunten, CPU-gebruik, Schijf-I/O. Zie Azure Batch-bewaking voor meer informatie.
- Azure Kubernetes Service. Gebruik Azure Monitor voor containers. Bewaak de prestaties van pods, de status van het knooppunt en het resourcegebruik. Waarschuwingen en aangepaste dashboards instellen.

Bedrijfscontinuïteit en herstel na noodgevallen beheren

Het beheren van bedrijfscontinuïteit en herstel na noodgevallen voor AI-toepassingen in Azure zorgt ervoor dat organisaties snel kunnen herstellen na onderbrekingen. Door strategieën zoals realtime replicatie, geautomatiseerd herstel en regelmatige back-ups te implementeren, beschermen organisaties hun AI-infrastructuur tegen gegevensverlies en operationele downtime.

Gebruik Azure Site Recovery. Site Recovery maakt gebruik van realtime replicatie- en herstelautomatisering om workloads in verschillende regio's te repliceren. Ingebouwde platformmogelijkheden voor VM-workloads voldoen aan lage RPO- en RTO-vereisten. U kunt Site Recovery gebruiken om herstelanalyses uit te voeren zonder dat dit van invloed is op productieworkloads. U kunt ook Azure Policy gebruiken om replicatie in te schakelen en vm-beveiliging te controleren.
Gebruik orchestratormogelijkheden (indien van toepassing). Gebruik uw orchestrator om mislukte rekenknooppunten te herstellen. Configureer bijvoorbeeld Azure Batch om taken automatisch opnieuw uit te voeren als er een fout optreedt.
Back-ups plannen. Bepaal of u dagelijks of wekelijks een back-up moet maken van incrementele wijzigingen in gegevenssets en modellen. Back-ups kunnen ook databases of volledige gegevenssets bevatten.
Zorg voor gegevensnaleving. Zorg ervoor dat uw back-upstrategie voldoet aan de voorschriften voor gegevensbescherming. Voldoen aan de vereisten voor gegevenslocatie en sla back-ups op de juiste geografische locaties op.
Momentopnamen maken. U kunt de mogelijkheden van uw planner gebruiken om momentopnamen te maken. CycleCloud kan bijvoorbeeld momentopnamen van een bepaald tijdstip maken van het onderliggende gegevensarchief van de toepassing als herstelpunten.

Volgende stap

Beveiligde IaaS AI

Delen via

Aanbevelingen voor beheer voor AI-workloads in Azure-infrastructuur (IaaS)

AI-infrastructuur bewaken

Bedrijfscontinuïteit en herstel na noodgevallen beheren

Volgende stap

Feedback

Aanvullende resources