Partilhar via


Noções básicas sobre tratamento de erros

Este tópico descreve as configurações de tratamento de erros para o Serviço de Agendador de Trabalho do HPC. Para obter informações sobre como alterar as opções de configuração, consulte Configurar o serviço de agendador de trabalho do HPC.

Este tópico inclui as seguintes seções:

Opções de pulsação

O Serviço HPC Node Manager em cada nó envia relatórios de integridade regulares para o Serviço de Agendador de Trabalho do HPC. Este relatório de integridade é chamado dede pulsação . Esse sinal de pulsação verifica a disponibilidade do nó. Se um nó perder muitas pulsações, o Serviço de Agendador de Trabalho do HPC sinaliza o nó como inacessível.

As seguintes configurações de propriedade de cluster se aplicam às investigações de integridade:

  • intervalo de pulsação: a frequência, em segundos, das investigações de integridade. O padrão é 30 segundos.

  • Pulsações Perdidas (Contagem de Inatividade): o número de pulsações que um nó pode perder antes de ser considerado inacessível. O padrão é 3.

    Nota

    A partir do HPC Pack 2012 com o Service Pack 1 (SP1), são fornecidas configurações separadas para configurar a contagem de inatividade para nós locais (locais) e nós do Windows Azure. Devido à possível latência de rede ao atingir nós do Windows Azure, a contagem de inatividade padrão para nós do Windows Azure é 10.

considerações adicionais

  • Um nó pode perder uma pulsação por muitos motivos, incluindo:

    • Problemas com conectividade de rede

    • O serviço HPC Node Manager não está em execução no nó de computação

    • Falha de autenticação entre o nó principal e o nó de computação

  • Se você aumentar a frequência das investigações de integridade (definir uma intervalo de pulsação mais curto), poderá detectar falhas mais rapidamente, mas também aumentar o tráfego de rede. O aumento do tráfego de rede pode diminuir o desempenho do cluster.

  • Quando um nó é sinalizado como inacessível, os trabalhos que estão em execução nesse nó podem falhar. Se você souber que sua rede tem falhas intermitentes frequentes, convém aumentar o Contagem de Inatividade para evitar falhas desnecessárias no trabalho. Consulte também trabalhos de repetição e tarefas neste tópico.

Tarefas e trabalhos de repetição

O Serviço de Agendador de Trabalho do HPC tenta automaticamente trabalhos e tarefas que falham devido a um problema de cluster, como um nó se tornando inacessível ou que são interrompidos pela política de preempção. Após um número especificado de tentativas malsucedidas, o Serviço de Agendador de Trabalho do HPC marca o trabalho ou a tarefa como falha.

As seguintes configurações de propriedade de cluster determinam o número de vezes para repetir trabalhos e tarefas:

  • Trabalho tentar novamente: o número de vezes para repetir automaticamente um trabalho. O padrão é 3.

  • Tarefa tentar novamente: o número de vezes para repetir automaticamente uma tarefa. O padrão é 3.

considerações adicionais

  • As tarefas não serão repetidas automaticamente se a propriedade da tarefa reruncável estiver definida como false.

  • Os trabalhos não serão repetidos automaticamente se a propriedade de trabalho Falha na falha da tarefa for definida como true.

  • Para obter mais informações, consulte Understanding Job and Task Properties.

Período de carência de cancelamento de tarefa

Quando uma tarefa em execução é interrompida durante a execução, você pode permitir que o aplicativo salve informações de estado, escreva uma mensagem de log, crie ou exclua arquivos ou para que os serviços concluam a computação de sua chamada de serviço atual. Você pode configurar a quantidade de tempo, em segundos, para permitir que os aplicativos saiam normalmente definindo a propriedade de cluster Task Cancel Grace Period. O padrão Período de Carência de Cancelamento de Tarefa é de 15 segundos.

Importante

No Windows HPC Server 2008 R2, o Serviço HPC Node Manager interrompe uma tarefa em execução enviando um sinal de CTRL_BREAK para o aplicativo. Para usar o período de carência, o aplicativo deve processar o evento CTRL_BREAK. Se o aplicativo não processar o evento, a tarefa será encerrada imediatamente. Para que um serviço use o período de carência, ele deve processar o evento ServiceContext.OnExiting.

considerações adicionais

  • Um administrador de cluster ou um proprietário de trabalho pode forçar o cancelamento de uma tarefa em execução. Quando uma tarefa é cancelada, a tarefa e suas subtarefas ignoram o período de carência e são interrompidas imediatamente. Para obter mais informações, consulte forçar o cancelamento de um trabalho ou tarefa.

  • Você pode ajustar o período de carência de acordo com a forma como os aplicativos executados no cluster lidam com o sinal de CTRL_BREAK. Por exemplo, se os aplicativos tentarem copiar grandes quantidades de dados após o sinal, você poderá aumentar o tempo limite adequadamente.

Tempo limite da tarefa de versão do nó

Os proprietários de trabalho podem adicionar tarefas de versão do nó para executar um comando ou script em cada nó conforme ele é liberado do trabalho. as tarefas de versão do nó podem ser usadas para retornar nós alocados para o estado de pré-trabalho ou para coletar dados e arquivos de log.

O tempo limite da tarefa de versão do nó determina o tempo máximo de execução (em segundos) para tarefas de versão do nó . O valor padrão é 10 segundos.

considerações adicionais

  • Se um trabalho tiver um tempo de execução máximo e uma tarefa Versão do Nó tarefa, o agendador cancelará as outras tarefas no trabalho antes que o tempo de execução do trabalho expire (tempo de execução do trabalho menos de tempo de execução da tarefa de Versão do Nó). Isso permite que a tarefa de versão do nó seja executada dentro do tempo alocado para o trabalho.

  • as tarefas de de versão do nó são executadas mesmo se um trabalho for cancelado. Um administrador de cluster ou o proprietário do trabalho pode forçar o cancelamento de um trabalho para ignorar a tarefa de versão do nó . Para obter mais informações, consulte forçar o cancelamento de um trabalho ou tarefa.

Limite de nós excluídos

O limite de nós excluídos especifica a quantidade máxima de nós que podem ser listados na propriedade de trabalho Nós Excluídos. A propriedade de trabalho Nós Excluídos pode especificar uma lista de nós que o agendador de trabalho deve parar de usar ou se abster de usar para um trabalho específico.

Se um proprietário de trabalho ou um administrador de cluster observar que as tarefas em um trabalho falham consistentemente em um nó específico, eles podem adicionar esse nó ao Nós Excluídos propriedade do trabalho. Quando o limite de nós Excluídos for atingido, as tentativas de adicionar mais nós à lista falharão. Para obter mais informações, consulte Definir e Limpar Nós Excluídos para Trabalhos.

Para trabalhos SOA, o nó do agente atualiza e mantém automaticamente a lista de nós excluídos de acordo com a configuração EndPointNotFoundRetryPeriod (no arquivo de configuração de serviço). Essa configuração especifica por quanto tempo o host de serviço deve tentar carregar novamente o serviço e por quanto tempo o agente deve aguardar uma conexão. Se esse tempo passar, o agente adicionará o nó (host de serviço) à lista Nós Excluídos. Quando o limite de nós Excluídos for excedido, o nó do agente cancelará o trabalho SOA.

Nota

Se você alterar o limite de nós Excluídos para o cluster, o novo limite só será aplicado a listas de nós excluídos que são modificadas após o novo limite ter sido definido. Ou seja, o número de nós listados na propriedade de trabalho Nós Excluídos só é validado em relação ao limite de todo o cluster no momento em que o trabalho é criado ou que a propriedade é modificada.

Referências adicionais