Recommandations de gestion pour les charges de travail d’IA sur l’infrastructure Azure (IaaS)
Cet article fournit des recommandations de gestion pour les organisations exécutant des charges de travail d’IA sur l’infrastructure Azure (IaaS). La gestion efficace des charges de travail d’IA sur Azure nécessite une surveillance continue, des pratiques d’optimisation et une stratégie de sauvegarde et de récupération solide. Ces efforts minimisent les interruptions et garantissent la fiabilité des opérations d’IA.
Surveiller l’infrastructure d’IA
La surveillance de l’infrastructure d’IA implique le suivi et l’évaluation des performances, de la santé et de la disponibilité de tous les composants d’un déploiement d’IA sur Azure IaaS. Une surveillance proactive permet aux organisations de détecter et de résoudre les problèmes potentiels avant qu’ils n’affectent les opérations.
Assurez-vous que la surveillance est activée par défaut. Déployer les agents Azure Monitor requis pour les machines virtuelles et Azure Virtual Machine Scale Sets, y compris les serveurs connectés à Azure Arc. Les connecter à l’espace de travail central Log Analytics dans l’abonnement de gestion. Envisagez d’utiliser les Azure Monitor Baseline Alerts (AMBA).
Utilisez le gestionnaire de mises à jour Azure. Vous pouvez surveiller la conformité des mises à jour Windows et Linux sur vos machines dans Azure et localement/sur d’autres plateformes cloud (connectées via Azure Arc) à partir d’un seul volet de gestion. Vous pouvez également utiliser Update Manager pour effectuer des mises à jour en temps réel ou les planifier dans une fenêtre de maintenance définie.
Surveillez les machines virtuelles.Surveillez les données des hôtes de machines virtuelles (hôtes physiques) et des invités de machines virtuelles (système d’exploitation et application). Envisagez d’utiliser VM Insights pour simplifier l’intégration, accéder aux graphiques de performance prédéfinis et utiliser la cartographie des dépendances. Suivez les évictions de VM Spot et les événements de maintenance pour gérer les interruptions efficacement. En savoir plus sur les événements planifiés.
Surveiller les réseaux.Surveillez et diagnostiquez les problèmes de réseau sans vous connecter à vos machines virtuelles. Obtenez des informations de performance en temps réel au niveau des paquets. Résolvez les problèmes de performance à l’aide de l’outil Performance Diagnostics. Suivez la topologie, la santé et les métriques de toutes les ressources réseau déployées.
Surveiller le stockage. Surveillez les performances du stockage, comme les SSD locaux, les disques attachés, les partages de fichiers et les comptes de stockage Azure.
Utilisez les capacités de surveillance de l’orchestrateur (si applicable). Envisagez d’utiliser les fonctionnalités de surveillance intégrées des orchestrateurs tels que Azure CycleCloud, Azure Batch et Azure Kubernetes Service (AKS). Suivez les conseils pour l’orchestrateur choisi :
Azure CycleCloud ou Azure CycleCloud Workspace pour Slurm : suivez les métriques CPU, disque et réseau. Stockez des données à partir de clusters Azure CycleCloud vers Log Analytics et créez des métriques personnalisées. Pour plus d’informations, consultez Surveillance de Azure CycleCloud. Les vérifications de l’état des nœuds sont un ensemble de tests automatisés pour garantir que votre matériel HPC/IA est sain. Vous pouvez exécuter cette vérification dans Azure CycleCloud dans le cadre du déploiement de cluster ou séparément en utilisant les instructions du référentiel GitHub. Assurez-vous de prêter attention à la matrice de compatibilité dans la documentation. Exécutez ces vérifications le cas échéant pour identifier tout nœud défaillant avant d’exécuter vos charges de travail d’IA.
Azure Batch : collectez les métriques des tâches et des travaux, telles que les tâches actives, la durée des tâches, l’heure de début des travaux, la durée, l’heure de début des tâches. Collectez également les métriques de pool, telles que les nœuds inactifs, les nœuds en cours d’exécution, l’utilisation du CPU, les E/S disque. Pour plus d’informations, consultez Surveillance de Azure Batch.
Azure Kubernetes Service. Utilisez Azure Monitor pour les conteneurs. Surveillez les performances des pods, l’état des nœuds et l’utilisation des ressources. Configurez des alertes et des tableaux de bord personnalisés.
Gérer la continuité des activités et la récupération d’urgence
La gestion de la continuité des activités et de la récupération d’urgence pour les applications d’IA sur Azure permet aux organisations de se remettre rapidement des perturbations. En mettant en œuvre des stratégies telles que la réplication en temps réel, la récupération automatisée et les sauvegardes régulières, les organisations protègent leur infrastructure d’IA contre la perte de données et les interruptions opérationnelles.
Utilisez Azure Site Recovery. Site Recovery utilise la réplication en temps réel et l’automatisation de la récupération pour répliquer les charges de travail entre différentes régions. Les fonctionnalités de plateforme intégrées pour les charges de travail de machine virtuelle répondent aux exigences d’objectifs RPO et RTO faibles. Vous pouvez utiliser Site Recovery pour exécuter des exercices de récupération sans affecter les charges de travail de production. Vous pouvez également utiliser Azure Policy pour activer la réplication et pour auditer la protection des machines virtuelles.
Utilisez les capacités de l’orchestrateur (si applicable). Utilisez votre orchestrateur pour récupérer les nœuds de calcul défaillants. Par exemple, configurez Azure Batch pour réessayer les tâches en cas d’échec.
Planifiez des sauvegardes. Déterminez si vous devez sauvegarder les modifications incrémentielles des ensembles de données et des modèles quotidiennement ou hebdomadairement. Les sauvegardes peuvent également inclure des bases de données ou des ensembles de données entiers.
Assurez la conformité des données. Assurez-vous que votre stratégie de sauvegarde respecte les réglementations sur la protection des données. Respectez les exigences de résidence des données et stockez les sauvegardes dans les emplacements géographiques appropriés.
Créez des instantanés. Vous pouvez utiliser les fonctionnalités de votre planificateur pour prendre des instantanés. Par exemple, CycleCloud peut prendre des captures instantanées du magasin de données de l'application sous-jacente en tant que points de récupération.