Nœuds de surveillance
Une étape clé de la surveillance et de la maintenance de l’intégrité du cluster consiste à identifier toute déviance de l’état opérationnel normal ou des performances. HPC Cluster Manager vous permet d’afficher l’état du cluster et du nœud en un clin d’œil, d’identifier les nœuds problématiques et d’explorer les détails des nœuds pour une investigation plus approfondie.
Dans cette rubrique :
Afficher l’état du cluster en un clin d’œil
Dans
Explorer les détails d’un nœud individuel
La Liste et vues de carte thermique fournissent un point de départ pour identifier les zones problématiques. Double-cliquez sur un nœud de calcul pour afficher des informations détaillées telles que le matériel, les propriétés du système d’exploitation et les métriques de performances actuelles. Vous pouvez également sélectionner un ou plusieurs nœuds, puis explorer les détails du nœud pour examiner les performances.
exécuter des tests de diagnostic et des rapports: exécutez des tests de diagnostic sur un ou plusieurs nœuds de calcul.
Afficher les graphiques de performances: affichez un graphique des métriques de performances d’un nœud de calcul au fil du temps.
Afficher les événements de nœud: afficher les événements générés par les services HPC sur un nœud de calcul spécifique.
ouvrir une connexion Bureau à distance à vos nœuds à partir de HPC Cluster Manager: ouvrez une session Bureau à distance sur un ou plusieurs nœuds de calcul.
Surveiller les opérations de nœud
Le suivi des opérations de cluster récentes ou en cours est un autre aspect de surveillance essentiel à l’administration d’un cluster. Pour plus d'informations, consultez les pages suivantes :
Présentation des états des nœuds, de l’intégrité et des opérations
lire le du journal des opérations
Mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics
Dans HPC Job Manager, vous pouvez utiliser le tableau croisé dynamique pour actions pour mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics. Par exemple, vous pouvez sélectionner un ou plusieurs nœuds dans le volet Affichages, puis basculer vers les travaux pour les nœuds sélectionnés. Vous accédez ainsi à un affichage de liste de travaux filtré par les nœuds que vous avez sélectionnés.
Les chemins d’accès croisé dynamique pris en charge sont les suivants :
Nœuds : pivoter vers des travaux, des résultats de test et des opérations.
Travaux : pivoter vers des nœuds.
résultats des tests : pivot vers les nœuds ayant échoué et les opérations.
Surveiller l’utilisation et les statistiques du cluster au fil du temps
HPC Cluster Manager fournit plusieurs graphiques et rapports intégrés pour surveiller et analyser l’utilisation des ressources de cluster et les statistiques de travail et de nœud au fil du temps. La base de données HPCReporting prend également en charge les rapports personnalisés. Pour plus d’informations, consultez Graphiques et rapports : HPC Cluster Manager.