Partager via


Nœuds de surveillance

Une étape clé de la surveillance et de la maintenance de l’intégrité du cluster consiste à identifier toute déviance de l’état opérationnel normal ou des performances. HPC Cluster Manager vous permet d’afficher l’état du cluster et du nœud en un clin d’œil, d’identifier les nœuds problématiques et d’explorer les détails des nœuds pour une investigation plus approfondie.

Dans cette rubrique :

Afficher l’état du cluster en un clin d’œil

Dans de gestion des nœuds, vous pouvez surveiller votre cluster en un clin d’œil à l’aide de l’affichage de liste de nœuds ou de la vue Carte thermique. Dans graphiques et lesde rapport, les graphiques de surveillance affichent les données actuelles et récentes sur l’intégrité des nœuds et l’utilisation du cluster. Pour plus d'informations, consultez les pages suivantes :

Explorer les détails d’un nœud individuel

La Liste et vues de carte thermique fournissent un point de départ pour identifier les zones problématiques. Double-cliquez sur un nœud de calcul pour afficher des informations détaillées telles que le matériel, les propriétés du système d’exploitation et les métriques de performances actuelles. Vous pouvez également sélectionner un ou plusieurs nœuds, puis explorer les détails du nœud pour examiner les performances.

Surveiller les opérations de nœud

Le suivi des opérations de cluster récentes ou en cours est un autre aspect de surveillance essentiel à l’administration d’un cluster. Pour plus d'informations, consultez les pages suivantes :

Mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics

Dans HPC Job Manager, vous pouvez utiliser le tableau croisé dynamique pour actions pour mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics. Par exemple, vous pouvez sélectionner un ou plusieurs nœuds dans le volet Affichages, puis basculer vers les travaux pour les nœuds sélectionnés. Vous accédez ainsi à un affichage de liste de travaux filtré par les nœuds que vous avez sélectionnés.

Les chemins d’accès croisé dynamique pris en charge sont les suivants :

  • Nœuds : pivoter vers des travaux, des résultats de test et des opérations.

  • Travaux : pivoter vers des nœuds.

  • résultats des tests : pivot vers les nœuds ayant échoué et les opérations.

Surveiller l’utilisation et les statistiques du cluster au fil du temps

HPC Cluster Manager fournit plusieurs graphiques et rapports intégrés pour surveiller et analyser l’utilisation des ressources de cluster et les statistiques de travail et de nœud au fil du temps. La base de données HPCReporting prend également en charge les rapports personnalisés. Pour plus d’informations, consultez Graphiques et rapports : HPC Cluster Manager.

Contenu de la section