Informazioni sulla gestione degli errori
In questo argomento vengono descritte le impostazioni di gestione degli errori per il servizio utilità di pianificazione processi HPC. Per informazioni su come modificare le opzioni di configurazione, vedere Configure the HPC Job Scheduler Service.
Questo argomento include le sezioni seguenti:
Opzioni heartbeat
Il servizio Gestione nodi HPC in ogni nodo invia report di integrità regolari al servizio utilità di pianificazione processi HPC. Questo report sull'integrità è denominato heartbeat . Questo segnale heartbeat verifica la disponibilità del nodo. Se un nodo perde troppi heartbeat, il servizio utilità di pianificazione processi HPC contrassegna il nodo come non raggiungibile.
Le impostazioni delle proprietà del cluster seguenti si applicano ai probe di integrità:
intervallo heartbeat: frequenza, in secondi, dei probe di integrità. Il valore predefinito è 30 secondi.
heartbeat mancanti (conteggio inattività): numero di heartbeat che un nodo può perdere prima che venga considerato non raggiungibile. Il valore predefinito è 3.
Nota
A partire da HPC Pack 2012 con Service Pack 1 (SP1), vengono fornite impostazioni separate per configurare il numero di inattività per nodi locali (locali) e nodi di Windows Azure. A causa della possibile latenza di rete quando si raggiungono i nodi di Windows Azure, il numero di inattività predefinito per i nodi di Windows Azure è 10.
Considerazioni aggiuntive
Un nodo può perdere un heartbeat per molti motivi, tra cui:
Problemi di connettività di rete
Il servizio Gestione nodi HPC non è in esecuzione nel nodo di calcolo
Errore di autenticazione tra il nodo head e il nodo di calcolo
Se si aumenta la frequenza dei probe di integrità (impostare un intervallo di heartbeat più breve ), è possibile rilevare gli errori più rapidamente, ma si aumenta anche il traffico di rete. Un maggiore traffico di rete può ridurre le prestazioni del cluster.
Quando un nodo viene contrassegnato come non raggiungibile, i processi in esecuzione in tale nodo potrebbero non riuscire. Se si è certi che la rete presenta errori intermittenti frequenti, è possibile aumentare il numero di inattività per evitare errori di processo non necessari. Vedere anche ripetere i processi e le attività in questo argomento.
Ripetere i processi e le attività
Il servizio utilità di pianificazione processi HPC ritenta automaticamente i processi e le attività che hanno esito negativo a causa di un problema del cluster, ad esempio un nodo che diventa non raggiungibile o che vengono arrestati dai criteri di annullamento. Dopo un numero specificato di tentativi non riusciti, il servizio utilità di pianificazione processi HPC contrassegna il processo o l'attività come Non riuscito.
Le impostazioni delle proprietà del cluster seguenti determinano il numero di tentativi di processi e attività:
nuovo tentativo di processo: numero di tentativi di ripetizione automatica di un processo. Il valore predefinito è 3.
Nuovo tentativo attività: numero di tentativi per ripetere automaticamente un'attività. Il valore predefinito è 3.
Considerazioni aggiuntive
Le attività non vengono ritentate automaticamente se la proprietà dell'attività Rieseguibile è impostata su false.
I processi non vengono ritentati automaticamente se la proprietà del processo Errore dell'attività è impostata su true.
Per altre informazioni, vedere Understanding Job and Task Properties.
Periodo di tolleranza di annullamento attività
Quando un'attività in esecuzione viene arrestata durante l'esecuzione, è possibile consentire all'applicazione di salvare le informazioni sullo stato, scrivere un messaggio di log, creare o eliminare file o per consentire ai servizi di completare il calcolo della chiamata al servizio corrente. È possibile configurare la quantità di tempo, in secondi, per consentire alle applicazioni di uscire normalmente impostando la proprietà periodo di tolleranza di annullamento attività cluster. Il periodo di tolleranza di annullamento attività predefinito
Importante
In Windows HPC Server 2008 R2 il servizio Gestione nodi HPC arresta un'attività in esecuzione inviando un segnale CTRL_BREAK all'applicazione. Per usare il periodo di tolleranza, l'applicazione deve elaborare l'evento CTRL_BREAK. Se l'applicazione non elabora l'evento, l'attività viene chiusa immediatamente. Affinché un servizio usi il periodo di tolleranza, deve elaborare l'evento
Considerazioni aggiuntive
Un amministratore del cluster o un proprietario del processo può forzare l'annullamento di un'attività in esecuzione. Quando un'attività viene annullata, l'attività e le relative attività secondarie ignorano il periodo di tolleranza e vengono arrestate immediatamente. Per altre informazioni, vedere Forzare l'annullamento di un processo o un'attività.
È possibile modificare il periodo di tolleranza in base al modo in cui le applicazioni eseguite nel cluster gestiscono il segnale CTRL_BREAK. Ad esempio, se le applicazioni tentano di copiare grandi quantità di dati dopo il segnale, è possibile aumentare il timeout di conseguenza.
Timeout dell'attività di rilascio del nodo
I proprietari di processi possono aggiungere node release attività per eseguire un comando o uno script in ogni nodo man mano che viene rilasciato dal processo. node release attività possono essere usate per restituire i nodi allocati allo stato di pre-processo o per raccogliere dati e file di log.
Il timeout dell'attività di rilascio del nodo
Considerazioni aggiuntive
Se un processo ha un tempo di esecuzione massimo e un'attività Node Release, l'utilità di pianificazione annulla le altre attività nel processo prima della scadenza del processo (tempo di esecuzione del processo meno tempo di esecuzione dell'attività Rilascio nodo). In questo modo, l'attività di rilascio del nodo
può essere eseguita entro il tempo allocato per il processo. node release le attività vengono eseguite anche se un processo viene annullato. Un amministratore del cluster o il proprietario del processo può forzare l'annullamento di un processo per ignorare l'attività di rilascio del nodo . Per altre informazioni, vedere Forzare l'annullamento di un processo o un'attività.
Limite di nodi esclusi
Il limite di nodi esclusi specifica la quantità massima di nodi che possono essere elencati nella proprietà Nodi esclusi processo. La proprietà nodi esclusi processo può specificare un elenco di nodi che l'utilità di pianificazione del processo deve interrompere o non usare per un determinato processo.
Se un proprietario del processo o un amministratore del cluster rileva che le attività in un processo hanno esito negativo in modo coerente in un determinato nodo, possono aggiungere tale nodo alla proprietà nodi esclusi processo. Quando viene raggiunto il limite di nodi esclusi, i tentativi di aggiungere altri nodi all'elenco hanno esito negativo. Per altre informazioni, vedere Set and Clear Excluded Nodes for Jobs.
Per i processi SOA, il nodo broker aggiorna automaticamente e mantiene l'elenco dei nodi esclusi in base all'impostazione EndPointNotFoundRetryPeriod (nel file di configurazione del servizio). Questa impostazione specifica per quanto tempo l'host del servizio deve ritentare il caricamento del servizio e per quanto tempo il broker deve attendere una connessione. Se questo tempo è trascorso, il broker aggiunge il nodo (host del servizio) all'elenco Nodi esclusi. Quando viene superato il Limite di nodi esclusi, il nodo broker annulla il processo SOA.
Nota
Se si modifica il limite di nodi esclusi per il cluster, il nuovo limite verrà applicato solo agli elenchi di nodi esclusi modificati dopo l'impostazione del nuovo limite. Ovvero, il numero di nodi elencati nella proprietà Nodi esclusi processo viene convalidato solo rispetto al limite a livello di cluster al momento della creazione del processo o della modifica della proprietà.
Riferimenti aggiuntivi
Informazioni sugli stati dei nodi, sull'integrità e sulle operazioni
configurazione dell'utilità di pianificazione dei processi di in Microsoft HPC Pack