Partager via


Présentation de la gestion des erreurs

Cette rubrique décrit les paramètres de gestion des erreurs pour le service hpC Job Scheduler. Pour plus d’informations sur la modification des options de configuration, consultez Configurer le service hpC Job Scheduler.

Cette rubrique comprend les sections suivantes :

Options de pulsation

Le service HPC Node Manager sur chaque nœud envoie des rapports d’intégrité réguliers au service hpC Job Scheduler. Ce rapport d’intégrité est appelépulsation . Ce signal de pulsation vérifie la disponibilité des nœuds. Si un nœud manque trop de pulsations, le service du planificateur de travaux HPC signale le nœud comme inaccessible.

Les paramètres de propriété de cluster suivants s’appliquent aux sondes d’intégrité :

  • intervalle de pulsation: fréquence, en secondes, des sondes d’intégrité. La valeur par défaut est de 30 secondes.

  • pulsations manquées (nombre d’inactivités): le nombre de pulsations qu’un nœud peut manquer avant qu’il ne soit considéré comme inaccessible. La valeur par défaut est 3.

    Note

    À compter de HPC Pack 2012 avec Service Pack 1 (SP1), des paramètres distincts sont fournis pour configurer le nombre d’inactivités pour les nœuds locaux (locaux) et les nœuds Windows Azure. En raison de la latence réseau possible lors de l’atteinte des nœuds Windows Azure, le nombre d’inactivités par défaut pour les nœuds Windows Azure est de 10.

considérations supplémentaires

  • Un nœud peut manquer une pulsation pour de nombreuses raisons, notamment :

    • Problèmes de connectivité réseau

    • Le service HPC Node Manager n’est pas en cours d’exécution sur le nœud de calcul

    • Échec d’authentification entre le nœud principal et le nœud de calcul

  • Si vous augmentez la fréquence des sondes d’intégrité (définissez un intervalle de pulsation plus court ), vous pouvez détecter les défaillances plus rapidement, mais vous augmentez également le trafic réseau. L’augmentation du trafic réseau peut réduire les performances du cluster.

  • Lorsqu’un nœud est marqué comme inaccessible, les travaux qui s’exécutent sur ce nœud peuvent échouer. Si vous savez que votre réseau a des défaillances intermittentes fréquentes, vous pouvez augmenter la nombre d’inactivités pour éviter les échecs de travail inutiles. Consultez également tâches et tâches de nouvelle tentative dans cette rubrique.

Nouvelles tentatives de travaux et de tâches

Le service hpC Job Scheduler retente automatiquement les tâches et les tâches qui échouent en raison d’un problème de cluster, par exemple un nœud qui devient inaccessible ou qui sont arrêtées par une stratégie de préemption. Après un nombre spécifié de tentatives infructueuses, le service du planificateur de travaux HPC marque le travail ou la tâche comme échec.

Les paramètres de propriété de cluster suivants déterminent le nombre de tentatives de travaux et de tâches :

  • nouvelle tentative de travail: nombre de fois pour réessayer automatiquement un travail. La valeur par défaut est 3.

  • nouvelle tentative de tâche: nombre de fois pour réessayer automatiquement une tâche. La valeur par défaut est 3.

considérations supplémentaires

  • Les tâches ne sont pas retentées automatiquement si la propriété de tâche réexécuter est définie sur false.

  • Les travaux ne sont pas retentés automatiquement si la propriété du travail Échec de l’échec de la tâche a la valeur true.

  • Pour plus d’informations, consultez Understanding Job and Task Properties.

Période de grâce d’annulation de tâche

Lorsqu’une tâche en cours d’exécution est arrêtée pendant l’exécution, vous pouvez laisser le temps à l’application d’enregistrer les informations d’état, d’écrire un message de journal, de créer ou de supprimer des fichiers, ou pour que les services terminent le calcul de leur appel de service actuel. Vous pouvez configurer la durée, en secondes, pour permettre aux applications de quitter correctement en définissant la tâche Annuler la période de grâce propriété de cluster. La tâche d’annulation de la période de grâce par défaut est de 15 secondes.

Important

Dans Windows HPC Server 2008 R2, le service HPC Node Manager arrête une tâche en cours d’exécution en envoyant un signal CTRL_BREAK à l’application. Pour utiliser la période de grâce, l’application doit traiter l’événement CTRL_BREAK. Si l’application ne traite pas l’événement, la tâche se ferme immédiatement. Pour qu’un service utilise la période de grâce, il doit traiter l’événement ServiceContext.OnExiting.

considérations supplémentaires

  • Un administrateur de cluster ou un propriétaire du travail peut forcer l’annulation d’une tâche en cours d’exécution. Lorsqu’une tâche est annulée, la tâche et ses sous-tâches ignorent la période de grâce et sont arrêtées immédiatement. Pour plus d’informations, consultez Forcer l’annulation d’un travail ou d’une tâche.

  • Vous pouvez ajuster le délai de grâce en fonction de la façon dont les applications qui s’exécutent sur votre cluster gèrent le signal CTRL_BREAK. Par exemple, si les applications tentent de copier de grandes quantités de données après le signal, vous pouvez augmenter le délai d’attente en conséquence.

Délai d’expiration de la tâche de mise en production du nœud

Les propriétaires de travaux peuvent ajouter tâches de mise en production de nœud pour exécuter une commande ou un script sur chaque nœud tel qu’il est libéré du travail. mise en production de nœud tâches peuvent être utilisées pour retourner des nœuds alloués à leur état de pré-travail ou pour collecter des données et des fichiers journaux.

Le délai d’expiration de la tâche de mise en production de nœud détermine la durée d’exécution maximale (en secondes) pour tâches de mise en production de nœud. La valeur par défaut est de 10 secondes.

considérations supplémentaires

  • Si un travail a une durée d’exécution maximale et une tâche de mise en production de nœud, le planificateur annule les autres tâches du travail avant l’expiration de l’exécution du travail (heure d’exécution du travail moins heure d’exécution de la tâche de mise en production de nœud). Cela permet à la tâche de version de nœud de s’exécuter dans le temps alloué pour le travail.

  • la mise en production de nœud tâches s’exécutent même si un travail est annulé. Un administrateur de cluster ou le propriétaire du travail peut forcer l’annulation d’un travail pour ignorer la tâche de mise en production de nœud . Pour plus d’informations, consultez Forcer l’annulation d’un travail ou d’une tâche.

Limite des nœuds exclus

La limite nœuds exclus spécifie la quantité maximale de nœuds qui peuvent être répertoriés dans la propriété Nœuds exclus tâche. Les nœuds exclus propriété de travail peuvent spécifier une liste de nœuds que le planificateur de travaux doit arrêter d’utiliser ou de s’abstenir d’utiliser pour un travail particulier.

Si un propriétaire d’un travail ou un administrateur de cluster remarque que les tâches d’un travail échouent de manière cohérente sur un nœud particulier, elles peuvent ajouter ce nœud à l'Nœuds exclus propriété de travail. Lorsque la limite nœuds exclus est atteinte, les tentatives d’ajout de nœuds à la liste échouent. Pour plus d’informations, consultez Définir et effacer les nœuds exclus pour les travaux.

Pour les travaux SOA, le nœud broker met automatiquement à jour et gère la liste des nœuds exclus conformément au paramètre EndPointNotFoundRetryPeriod (dans le fichier de configuration du service). Ce paramètre spécifie la durée pendant laquelle l’hôte de service doit réessayer de charger le service et combien de temps le répartiteur doit attendre une connexion. Si ce temps s’écoule, le répartiteur ajoute le nœud (hôte de service) à la liste nœuds exclus. Lorsque la limite nœuds exclus est dépassée, le nœud broker annule le travail SOA.

Note

Si vous modifiez la limite nœuds exclus pour le cluster, la nouvelle limite s’applique uniquement aux listes de nœuds exclues qui sont modifiées une fois la nouvelle limite définie. Autrement dit, le nombre de nœuds répertoriés dans la propriété Nœuds exclus propriété de travail n’est validé que par rapport à la limite à l’échelle du cluster au moment où le travail est créé ou que la propriété est modifiée.

Références supplémentaires