Présentation des états de nœud, de l’intégrité et des opérations
'état du nœud reflète l’état de déploiement d’un nœud et indique si un administrateur souhaite que le nœud soit disponible en tant que ressource pour les travaux de cluster. Un administrateur apporte un nœud à l’état Online pour indiquer que le nœud doit accepter des travaux ou des demandes clientes.
node Health indique s’il existe ou non des avertissements ou des erreurs que les services HPC connaissent sur ce nœud. Si le nœud a une valeur d’intégrité de nœud de Erreur, le nœud ne pourra pas accepter de travaux ou de demandes clientes, même si l’état du nœud est En ligne.
Pendant les opérations normales, les nœuds ont une valeur d’intégrité de nœud de OK. La liste suivante décrit les valeurs d’état de nœud normales :
Le nœud principal a une valeur d’état de nœud de hors connexion. Si le nœud principal agit également comme un nœud de calcul ou un nœud broker WCF, ou si un nœud principal est installé pour la haute disponibilité, sa valeur d’état de nœud normale est En ligne.
Les nœuds de calcul et les nœuds broker Windows Communication Foundation (WCF) ont une valeur d’état de nœud de Online.
Les nœuds de station de travail peuvent avoir une valeur d’état de nœud de Online ou hors connexion, conformément à la stratégie de disponibilité.
Les nœuds Windows Azure définis, mais non déployés dans Windows Azure, ont une valeur d’état de nœud normale de non déployé. Les nœuds Windows Azure déployés ont une valeur d’état de nœud normale de Online.
Une partie du processus de surveillance et de maintenance de l’intégrité du cluster recherche des déviances de l’état et de l’intégrité des nœuds normaux, ainsi que la surveillance de l’état des opérations de cluster.
Les sections de cette rubrique décrivent les valeurs pour :
États de nœud
Les états de nœud reflètent l’état de déploiement d’un nœud et indiquent si un administrateur souhaite que le nœud soit disponible en tant que ressource pour les travaux de cluster.
Lorsque le nœud principal détecte d’abord un nœud local sur le réseau, le nœud apparaît dans l’état Inconnu. Lorsqu’un administrateur ajoute un nœud au cluster en affectant un modèle de nœud, le nœud passe à l’état Provisionnement. Lorsque le nœud a correctement joint le cluster, il passe à l’état hors connexion.
Lorsqu’un administrateur ajoute des nœuds Windows Azure au cluster, ils apparaissent dans l’état non déployé. Lorsque les nœuds Windows Azure sont démarrés (ce qui signifie que les instances sont déployées dans Windows Azure), les nœuds passent à l’état Provisionnement. Une fois l’approvisionnement terminé, un nœud Windows Azure démarré manuellement passe à l’état hors connexion, et un nœud Windows Azure démarré automatiquement passe à l’état Online.
Lorsqu’un administrateur ajoute des nœuds de station de travail et des nœuds serveur non managés au cluster, et une fois le modèle de nœud affecté, il peut être mis en ligne pour exécuter des travaux de cluster, puis mis hors connexion pour reprendre leurs charges de travail normales. Les nœuds configurés dans le modèle de nœud à mettre en ligne et hors connexion manuellement seront initialement hors connexion. Les nœuds configurés pour être mis en ligne et hors connexion en fonction d’une stratégie de disponibilité hebdomadaire commencent à suivre cette stratégie, et ils seront mis en ligne automatiquement pendant les intervalles planifiés.
Un administrateur apporte un nœud Online ou prend un nœud hors connexion pour indiquer si les nœuds doivent accepter et exécuter des travaux de cluster. Les nœuds Windows Azure et les nœuds de station de travail peuvent également être apportés en ligne ou hors connexion en fonction d’une stratégie de disponibilité hebdomadaire. Le service hpC Job Scheduler tente uniquement de démarrer de nouveaux travaux sur les nœuds qui se trouvent dans l’état Online. Pour rendre un nœud indisponible pour les nouveaux travaux, les administrateurs peuvent prendre le nœud hors connexion. Les nœuds doivent être à l’état hors connexion pour exécuter certaines actions de gestion, telles que ou Gérer.
Vous pouvez utiliser l’affichage liste des nœuds pour afficher l’état de chaque nœud et filtrer les nœuds de calcul par état de nœud.
Le tableau suivant décrit les valeurs d’état du nœud :
État du nœud | Description |
---|---|
online | Cet état indique que le nœud doit accepter et exécuter des travaux de cluster. Pour les nœuds broker WCF, cet état indique qu’ils doivent être disponibles pour gérer les sessions SOA. Le service hpC Job Scheduler essaie uniquement d’allouer du travail aux nœuds qui se trouvent dans l’état Online. Un nœud doit se trouver dans l’état Online nœud et sain pour exécuter des travaux (ou gérer des sessions). Si l’intégrité du nœud est Erreur, les travaux ne peuvent pas démarrer sur ce nœud. Les nœuds peuvent être apportés online ou hors connexion par l’administrateur du cluster. Les nœuds Windows Azure, les nœuds de station de travail et les nœuds serveur non gérés peuvent également être apportés en ligne ou hors connexion en fonction d’une stratégie de disponibilité hebdomadaire. |
hors connexion | Cet état indique que le nœud ne doit pas être utilisé pour exécuter des travaux de cluster. Pour les nœuds broker WCF, cela indique qu’il ne doit pas être utilisé pour gérer les sessions SOA. Cet état permet à un administrateur de cluster d’exécuter des scripts, d’installer des logiciels et d’effectuer d’autres tâches sur le nœud. Il s’agit de l’état par défaut d’un nœud une fois qu’un administrateur de cluster a approuvé le nœud pour l’inclusion dans le cluster. Il s’agit de l’état normal d’un nœud principal (sauf s’il est installé pour la haute disponibilité). Vous pouvez apporter un nœud principal Online si vous souhaitez qu’il exécute des rôles de nœud supplémentaires, tels que le nœud de calcul ou le nœud broker WCF. Pour plus d’informations, consultez Understanding Node Roles in Microsoft HPC Pack. Les nœuds peuvent être apportés online ou hors connexion par l’administrateur du cluster. Les nœuds Windows Azure, les nœuds de station de travail et les nœuds serveur non gérés peuvent également être apportés en ligne ou hors connexion en fonction d’une stratégie de disponibilité hebdomadaire. Si un nœud est mis hors connexion lors de l’exécution des travaux, il passe d’abord à l’état draining. Si un administrateur choisit de forcer le nœud hors connexion immédiatement, toutes les tâches en cours d’exécution sont annulées et requeuées dans leur travail. |
inconnu | Cet état indique que le nœud ne fait pas partie du cluster ou qu’une opération d’approvisionnement a échoué sur ce nœud. Pour joindre un nœud au cluster, appliquez l’action Affecter un modèle de nœud au nœud. Dans un cluster à haute disponibilité, une fois l’installation exécutée sur le premier nœud principal, le deuxième nœud principal se trouve dans l’état Inconnu jusqu’à ce que l’installation soit exécutée sur ce nœud. Après l’installation, le deuxième nœud principal passe à l’état Online. |
provisionnement | Nœuds locaux Cet état indique que le nœud est configuré en tant que nœud de cluster. L'Affecter un modèle de nœud, réimageret gérer les actions placent également un nœud dans l’état d’approvisionnement. Une fois l’approvisionnement terminé, le nœud passe à l’état hors connexion. Nœuds Windows Azure Cet état indique que l’instance de nœud est déployée dans Windows Azure. La Démarrer action ou une stratégie de disponibilité automatique peut placer un nœud Windows Azure dans l’état d’approvisionnement. Une fois l’approvisionnement terminé, un nœud Windows Azure démarré manuellement passe à l’état |
démarrage | Cet état indique que le nœud passe du mode hors connexion |
de drainage | Cet état indique que le nœud a été mis hors connexion et passe à l’état hors connexion. Le nœud termine actuellement les travaux en cours d’exécution avant de passer à l’état hors connexion. Les nœuds de draining n’acceptent pas de nouveaux travaux. |
suppression de | Cet état indique que les informations sur le nœud sont supprimées de la base de données HPC Node Management Services. L’action Supprimer place un nœud dans cet état. Rien n’est modifié sur le nœud supprimé lui-même. Si le nœud tente de rejoindre le cluster, une nouvelle entrée est créée pour ce nœud dans la base de données et le nœud apparaît dans l’état Inconnu. |
rejeté | Cet état indique que le nœud a été rejeté par un administrateur de cluster. |
non déployé | Cet état s’applique uniquement aux nœuds Windows Azure. Cet état indique que le nœud Windows Azure a été défini et ajouté au cluster, mais que le nœud n’a pas été démarré et approvisionné dans Windows Azure (l’instance de nœud n’a pas été créée dans Windows Azure). Les nœuds Windows Azure sont déployés en fonction de la stratégie de disponibilité définie dans le modèle de nœud : manuellement (avec le Démarrer action) ou automatiquement en fonction d’une planification hebdomadaire. Les nœuds Windows Azure dans l’état non déployé n’entraînent pas de frais dans Windows Azure. |
arrêter | Cet état s’applique uniquement aux nœuds Windows Azure. Cet état indique que l’instance de nœud Windows Azure est supprimée de Windows Azure. Les nœuds Windows Azure sont arrêtés en fonction de la stratégie de disponibilité définie dans le modèle de nœud : manuellement (avec le Arrêter action) ou automatiquement en fonction d’une planification hebdomadaire. Une fois les opérations d’arrêt terminées (l’instance de nœud est supprimée de Windows Azure), le nœud passe à l’état non déployé. |
Intégrité du nœud
node Health indique s’il existe ou non des avertissements ou des erreurs que les services HPC connaissent sur ce nœud.
Vous pouvez utiliser l’affichage liste des nœuds pour afficher l’intégrité de chaque nœud de calcul et filtrer les nœuds par intégrité des nœuds. Si l’intégrité du nœud est
Le tableau suivant décrit les valeurs d’intégrité des nœuds :
Intégrité du nœud | Description |
---|---|
OK | Les services HPC ne connaissent aucun problème avec le nœud. |
d’avertissement | Cette valeur peut indiquer ce qui suit : - Un administrateur de cluster a exécuté des tests de diagnostic sur le nœud, et un ou plusieurs tests ont retourné un résultat de Échec ou Échec de l’exécution. Un administrateur peut effacer manuellement les alertes de diagnostic (voir Résoudre et effacer les alertes de diagnostic). - Une ou plusieurs opérations de nœud se trouvent dans la Passez en revue les informations de l’onglet |
erreur | Cette valeur peut indiquer ce qui suit : - Le nœud n’est pas accessible, comme déterminé par les options de pulsation . - Échec de l’approvisionnement. - Le nœud a été rejeté par un administrateur de cluster. (Vous pouvez affecter un modèle de nœud si vous décidez de joindre le nœud au cluster.) Passez en revue les informations de l’onglet d’intégrité de nœud |
transitionnelle | Cette valeur indique que le nœud effectue une opération lancée par un administrateur de cluster, par exemple : - attribuer un modèle de nœud, de réinitialisation ou gérer (auquel cas l’état du nœud est provisionnement). - mettre en ligne (auquel cas l’état du nœud est Démarrage). - hors connexion (auquel cas l’état du nœud est de drainage). - Démarrer pour les nœuds Windows Azure (auquel cas l’état du nœud est provisionnement). Affichez l’onglet d’intégrité de nœud |
non approuvé | Nœuds locaux Le nœud a été détecté par le nœud principal, mais il ne fait pas partie du cluster. Affectez un modèle de nœud pour joindre le nœud au cluster. Consultez également Ajout de nœuds à unde cluster. Nœuds Windows Azure Le nœud a été ajouté au cluster, mais le nœud n’a pas été démarré et approvisionné dans Windows Azure (l’instance de nœud n’existe pas dans Windows Azure). |
États d’opération
Pour plus d’informations sur la façon d’afficher le journal des opérations, consultez Lire le journal des opérations.
Le tableau suivant décrit les valeurs d’état de l’opération :
État de l’opération | Description |
---|---|
archivé | L’opération est de plus de 24 heures ou le test de diagnostic a été effacé. Lorsqu’une opération est archivée, elle est supprimée d’autres rapports d’état. |
validée | L’opération s’est terminée avec succès. |
exécution de | L’opération est en cours. |
échec | L’opération n’a pas pu s’exécuter. |
rétablir | L’opération est rétablie. Lorsque le nettoyage de l’opération est terminé, l’opération passe à l’état rétabli. |
impossible de rétablir | Le nettoyage de l’opération n’a pas réussi. |
rétabli | L’opération a été rétablie après l’échec ou l’annulation. |