Recommandations de gestion pour les charges de travail IA sur l’infrastructure Azure (IaaS)
Cet article fournit des recommandations de gestion pour les organisations exécutant des charges de travail IA sur l’infrastructure Azure (IaaS). Une gestion efficace des charges de travail IA sur Azure nécessite une surveillance continue, des pratiques d’optimisation et une stratégie de sauvegarde et de récupération forte. Ces efforts réduisent les temps d’arrêt et garantissent la fiabilité des opérations d’IA.
Surveiller l’infrastructure IA
La surveillance de l’infrastructure IA implique le suivi et l’évaluation des performances, de l’intégrité et de la disponibilité de tous les composants d’un déploiement IA sur Azure IaaS. La surveillance proactive permet aux organisations de détecter et de résoudre les problèmes potentiels avant qu’elles n’affectent les opérations.
Vérifiez la surveillance par défaut. Déployer les agents Azure Monitor requis pour les machines virtuelles et Azure Virtual Machine Scale Sets, y compris les serveurs connectés à Azure Arc. Les connecter à l’espace de travail central Log Analytics dans l’abonnement de gestion. Envisagez d’utiliser les alertes de référence Azure Monitor (AMBA).
Utilisez Azure Update Manager. Vous pouvez surveiller la conformité des mises à jour Windows et Linux sur vos machines dans Azure et localement/sur d’autres plateformes cloud (connectées via Azure Arc) à partir d’un seul volet de gestion. Vous pouvez également utiliser Update Manager pour effectuer des mises à jour en temps réel ou les planifier dans une fenêtre de maintenance définie.
Surveillez les machines virtuelles. Surveillez les données d’hôte de machine virtuelle (hôte physique) et les données invitées de machine virtuelle (système d’exploitation et application). Envisagez d’utiliser VM Insights pour simplifier l’intégration, accéder aux graphiques de performances prédéfinis et utiliser le mappage des dépendances. Suivez les évictions et les événements de maintenance des machines virtuelles Spot pour gérer efficacement les interruptions. En savoir plus sur les événements planifiés.
Surveiller les réseaux. Surveillez et diagnostiquez les problèmes réseau sans vous connecter à vos machines virtuelles. Obtenez des informations sur les performances en temps réel au niveau du paquet. Résolvez les problèmes de performances avec l’outil Diagnostics de performances. Suivez la topologie, l’intégrité et les métriques pour toutes les ressources réseau déployées.
Surveiller le stockage. Surveillez les performances du stockage, telles que les disques SSD locaux, les disques attachés, les partages de fichiers et les comptes de stockage Azure.
Utilisez les fonctionnalités de supervision d’orchestrateur (le cas échéant). Envisagez d’utiliser les fonctionnalités de supervision intégrées des orchestrateurs tels qu’Azure CycleCloud, Azure Batch et Azure Kubernetes Service (AKS). Suivez les instructions pour l’orchestrateur que vous avez choisi :
Espace de travail Azure CycleCloud ou Azure CycleCloud pour Slurm : suivre les métriques processeur, disque et réseau. Stockez des données à partir de clusters Azure CycleCloud vers Log Analytics et créez des métriques personnalisées. Pour plus d’informations, consultez Surveillance d’Azure CycleCloud. Les vérifications d’intégrité des nœuds sont un ensemble de tests automatisés pour vous assurer que votre matériel HPC/AI est sain. Vous pouvez exécuter cette vérification dans Azure CycleCloud dans le cadre du déploiement du cluster ou séparément à l’aide des instructions du dépôt GitHub. Veillez à faire attention à la matrice de compatibilité dans la documentation. Exécutez le cas échéant pour vous assurer que vous identifiez les nœuds défectueux avant d’exécuter vos charges de travail IA.
Azure Batch : collectez les métriques de travail et de tâche, telles que les tâches actives, la durée des tâches, l’heure de début du travail, la durée, l’heure de début de la tâche. Collectez également les métriques de pool, telles que les nœuds inactifs, les nœuds en cours d’exécution, l’utilisation du processeur, les E/S de disque. Pour plus d’informations, consultez la supervision Azure Batch.
Azure Kubernetes Service. Utilisez Azure Monitor pour conteneurs. Surveillez les performances des pods, l’intégrité des nœuds et l’utilisation des ressources. Configurez des alertes et des tableaux de bord personnalisés.
Gérer la continuité d’activité et la récupération d’urgence
La gestion de la continuité d’activité et de la récupération d’urgence pour les applications IA sur Azure garantit que les organisations peuvent récupérer rapidement des interruptions. En implémentant des stratégies telles que la réplication en temps réel, la récupération automatisée et les sauvegardes régulières, les organisations protègent leur infrastructure IA contre la perte de données et les temps d’arrêt opérationnels.
Utilisez Azure Site Recovery. Site Recovery utilise la réplication en temps réel et l’automatisation de la récupération pour répliquer les charges de travail entre différentes régions. Les fonctionnalités de plateforme intégrées pour les charges de travail de machine virtuelle répondent aux exigences d’objectifs RPO et RTO faibles. Vous pouvez utiliser Site Recovery pour exécuter des exercices de récupération sans affecter les charges de travail de production. Vous pouvez également utiliser Azure Policy pour activer la réplication et pour auditer la protection des machines virtuelles.
Utilisez les fonctionnalités d’orchestrateur (le cas échéant) . Utilisez votre orchestrateur pour récupérer les nœuds de calcul ayant échoué. Par exemple, configurez Azure Batch pour réessayer automatiquement les tâches en cas de défaillance.
Planifiez les sauvegardes. Déterminez si vous devez sauvegarder des modifications incrémentielles dans des jeux de données et des modèles tous les jours ou toutes les semaines. Les sauvegardes peuvent également inclure des bases de données ou des jeux de données entiers.
Vérifiez la conformité des données. Assurez-vous que votre stratégie de sauvegarde est conforme aux réglementations en matière de protection des données. Respectez les exigences de résidence des données et stockez les sauvegardes dans des emplacements géographiques appropriés.
Créez des instantanés. Vous pouvez utiliser les fonctionnalités de votre planificateur pour prendre des instantanés. Par exemple, CycleCloud peut prendre des instantanés à un point dans le temps du magasin de données d’application sous-jacent en tant que points de récupération.