共用方式為


瞭解錯誤處理

本主題描述 HPC 作業排程器服務的錯誤處理設定。 如需如何變更組態選項的詳細資訊,請參閱 設定 HPC 作業排程器服務

本主題包含下列各節:

活動訊號選項

每個節點上的 HPC 節點管理員服務會將一般健康情況報告傳送至 HPC 作業排程器服務。 此健康情況報告稱為 活動訊號。 此活動訊號會驗證節點可用性。 如果節點遺漏太多活動訊號,HPC 作業排程器服務會將節點標示為無法連線。

下列叢集屬性設定適用於健康情況探查:

  • 活動訊號間隔:健康情況探查的頻率,以秒為單位。 預設值為30秒。

  • 遺漏活動訊號(無活動計數):節點在視為無法連線之前,節點可能會遺漏的活動訊號數目。 預設值為 3。

    注意

    從 HPC Pack 2012 Service Pack 1 (SP1)開始,會提供個別設定來設定內部部署 (本機) 節點和 Windows Azure 節點的非使用中計數。 由於到達 Windows Azure 節點時可能發生的網路等待時間,因此 Windows Azure 節點的預設無活動計數為 10。

其他考慮

  • 節點可能會因為許多原因而遺漏活動訊號,包括:

    • 網路連線問題

    • HPC Node Manager 服務未在計算節點上執行

    • 前端節點與計算節點之間的驗證失敗

  • 如果您增加健康情況探查的頻率(設定較短的 活動訊號間隔),您可以更快速地偵測失敗,但也會增加網路流量。 增加的網路流量可能會降低叢集效能。

  • 當節點標示為無法連線時,在該節點上執行的作業可能會失敗。 如果您知道網路經常發生間歇性失敗,您可能會想要增加 無活動計數,以避免不必要的作業失敗。 另請參閱本主題 重試作業和工作

重試作業和工作

HPC 作業排程器服務會自動重試因叢集問題而失敗的作業和工作,例如無法連線到節點,或先佔原則停止的工作。 在指定的失敗嘗試次數之後,HPC 作業排程器服務會將作業或工作標示為失敗

下列叢集屬性設定會決定重試作業和工作的次數:

  • 作業重試:自動重試作業的次數。 預設值為 3。

  • 工作重試:自動重試工作的次數。 預設值為 3。

其他考慮

  • 如果 task 屬性 Rerunnable 設為 false,則不會自動重試工作。

  • 如果工作屬性 工作失敗 設定為 true,則作業不會自動重試。

  • 如需詳細資訊,請參閱 瞭解作業和工作屬性

工作取消寬限期

在執行期間停止執行中工作時,您可以讓應用程式有時間儲存狀態資訊、寫入記錄訊息、建立或刪除檔案,或讓服務完成其目前服務呼叫的計算。 您可以設定 [工作取消寬限期] 叢集屬性,以秒為單位設定應用程式正常結束的時間量。 默認 任務取消寬限期 為 15 秒。

重要

在 Windows HPC Server 2008 R2 中,HPC Node Manager 服務會藉由將 CTRL_BREAK 訊號傳送至應用程式來停止執行中的工作。 若要使用寬限期,應用程式必須處理 CTRL_BREAK 事件。 如果應用程式未處理事件,工作會立即結束。 若要讓服務使用寬限期,它必須處理 ServiceContext.OnExiting 事件。

其他考慮

  • 叢集管理員或作業擁有者可以強制取消執行中的工作。 當任務強制取消時,工作及其子工作會略過寬限期,並立即停止。 如需詳細資訊,請參閱 強制取消作業或工作

  • 您可以根據叢集上執行的應用程式如何處理 CTRL_BREAK 訊號來調整寬限期時間。 例如,如果應用程式嘗試在訊號之後複製大量數據,您可以據以增加逾時。

節點發行工作逾時

作業擁有者可以新增 節點發行 工作,以在作業釋出時在每個節點上執行命令或腳本。 節點發行 工作可用來將已配置的節點傳回其作業前狀態,或收集數據和記錄檔。

節點發行工作逾時 會決定 節點發行 工作的最大運行時間(以秒為單位)。 預設值為10秒。

其他考慮

  • 如果作業的運行時間上限和 節點發行 工作,排程器會在作業運行時間到期之前取消作業中的其他工作(作業運行時間 減去 節點發行工作運行時間)。 這可讓 節點發行 工作在作業的已配置時間內執行。

  • 節點發行 工作執行,即使作業已取消也一樣。 叢集管理員或作業擁有者可以強制取消作業,以略過 節點發行 工作。 如需詳細資訊,請參閱 強制取消作業或工作

排除的節點限制

排除的節點限制 會指定 排除節點 作業屬性中可以列出的節點數量上限。 排除的節點 作業屬性可以指定作業排程器應該停止使用或避免用於特定作業的節點清單。

如果作業擁有者或叢集管理員注意到作業中的工作在特定節點上一致失敗,他們可以將該節點新增至 排除的節點 作業屬性。 當達到 排除的節點限制 時,嘗試將更多節點新增至清單失敗。 如需詳細資訊,請參閱 設定和清除作業的排除節點

針對SOA作業,訊息代理程式節點會根據 EndPointNotFoundRetryPeriod 設定,自動更新並維護排除的節點清單(在服務組態檔中)。 此設定會指定服務主機應該重試載入服務的時間,以及訊息代理程式應該等候連線的時間長度。 如果這次經過,訊息代理程式會將節點(服務主機)新增至 排除的節點 清單。 當超過 排除的節點限制 時,訊息代理程序節點會取消SOA作業。

注意

如果您變更叢集 [排除的節點] 限制,新限制只會套用至設定新限制之後修改的排除節點清單。 也就是說,排除的節點 作業屬性中列出的節點數目只會在建立作業或修改屬性時,根據整個叢集限制進行驗證。

其他參考