Définir et effacer les nœuds exclus pour les travaux
Si vous remarquez que les tâches échouent de façon cohérente sur un nœud particulier, vous pouvez exclure ce nœud d’un ou plusieurs travaux en l’ajoutant à la propriété Nœuds exclus propriété de travail. Lorsque vous spécifiez des nœuds dans les nœuds exclus :
Les tâches du travail en cours d’exécution sur un nœud qui a été ajouté à
nœuds exclus sont annulées et marquées commeéchec (à l’exception des tâches de mise en production de nœud). mise en production de nœud tâches s’exécutent sur le nœud exclu avant la publication du nœud.
Aucune tâche du travail n’est démarrée sur les nœuds répertoriés dans Nœuds exclus.
Si les ajouts aux nœuds exclus liste entraînent la suppression du travail en dessous de ses exigences minimales en matière de ressources, le travail est annulé et mis à la file d’attente.
Pour tout travail actif, vous pouvez ajouter ou supprimer des nœuds dans la propriété Nœuds exclus propriété travaux, ou effacer la liste. L’exemple suivant répertorie les commandes permettant de modifier et d’afficher la liste nœuds exclus à l’aide de HPC PowerShell ou d’une invite de commandes.
Dans HPC PowerShell, utilisez l’applet de commandeSet-HpcJob
Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /clearExcludedNodes
(Get-HpcJob –JobId <yourJobID>).ExcludedNodes
Ou pour afficher toutes les propriétés du travail,
Get-HpcJob –JobId <yourJobID>|fl
À l’invite de commandes, utilisez la commande modifier commande, par exemple :
job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>
job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
job modify <yourJobID> /clearExcludedNodes
job view <yourJobID> /detailed|find “excludednodes” /i
Ou pour afficher toutes les propriétés du travail,
job view <yourJobID> /detailed
Note
Pour les travaux SOA, le nœud broker met automatiquement à jour et gère la liste des nœuds exclus conformément au paramètre EndPointNotFoundRetryPeriod (dans le fichier de configuration du service). Ce paramètre spécifie la durée pendant laquelle l’hôte de service doit réessayer de charger le service et combien de temps le répartiteur doit attendre une connexion. Si ce temps s’écoule, le répartiteur ajoute le nœud (hôte de service) à la liste Nœuds exclus. La configuration du service inclut également le paramètre maxExcludedNodes qui spécifie le nombre de nœuds pouvant être exclus avant l’échec de la session.
Supervision des nœuds exclus sur le cluster
Pour afficher tous les nœuds exclus sur un cluster, utilisez l’applet de commande Get-HpcJob PowerShell
Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort
Si l’administrateur du cluster détecte et résout le problème sur un ou plusieurs nœuds, l’administrateur peut supprimer le nœud fixe de n’importe quelle liste d’exclusion de nœud dans laquelle il apparaît. L’applet de commande suivante obtient tous les travaux actifs et supprime les nœuds fixes des listes d’exclusion de nœuds (cela n’a aucun effet sur les travaux qui ne répertorient pas les nœuds spécifiés) :
Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>