共用方式為


瞭解作業和工作狀態

在 HPC Pack 中,作業和工作有幾乎相同的生命周期狀態。 主要生命周期狀態為 設定佇列執行完成失敗,以及 取消。 工作和工作也會經歷短暫的過渡狀態。 下表摘要說明所有生命周期狀態。

作業和工作狀態

定義
設定 作業或工作位於系統中,但尚未提交至佇列。
提交 作業或工作已提交,且正在等候驗證,才能排入佇列。
驗證 HPC 作業排程器服務正在驗證作業或工作。 在驗證期間,HPC 作業排程器服務會確認許可權、針對作業擁有者未指定的任何屬性套用預設設定,並針對條件約束驗證每個屬性。 默認設定和條件約束是由作業範本所定義。 如需作業範本的詳細資訊,請參閱 瞭解作業範本 - 作業管理員。 HPC 作業排程器服務也會確認作業屬性包含所有工作屬性(例如,沒有工作具有比作業運行時間更大的運行時間)。

在驗證期間,作業也可能通過叢集管理員所定義的自定義提交篩選應用程式。

如果作業通過驗證,它會移至已排入佇列 狀態 。 如果作業未通過驗證,作業會顯示錯誤訊息,而作業會移至失敗 狀態。
佇列 作業或工作已通過驗證,並正在等候排程和啟動(執行)。

當執行中作業、基本 工作或 參數掃掠 子工作被 HPC 作業排程器服務先佔時,它會回到 佇 佇列 狀態(除非工作無法重新執行,在此情況下,它會標示為 失敗)。 注意: 在 HPC Pack 2012 中,佇列 排程模式中先佔行為的預設選項是工作層級立即先佔,而不是作業層級先佔。
分派 此狀態僅適用於工作。 HPC 作業排程器服務已將資源配置給工作,並連絡已配置節點以開始執行工作。 當工作啟動時,它會移至執行中 狀態
執行 作業或工作正在一或多個節點上執行。
完成 作業或工作已完成,且作業或工作清除正在進行中。
已完成 作業或工作已順利完成。
失敗 作業或工作無法完成、停止執行或傳回表示失敗的結束代碼(預設為任何非零結束代碼)。

此外,當下列情況下,執行中的工作會標示為 失敗

- 作業擁有者或叢集管理員會取消工作。
- HPC 作業排程器服務會取消工作,因為它已超過其最大運行時間。
- HPC 作業排程器服務會先佔未標示為可重新執行的工作。
- HPC 作業排程器服務會先佔每個資源啟動的子工作(節點準備節點發行,以及 Service 子工作)。

如果作業或工作因為叢集失敗而無法啟動,作業或工作就會自動重試指定的次數,再將其標示為 失敗
取消 作業或工作已取消,且清理正在進行中。
已取消 作業由作業擁有者、叢集管理員或 HPC 作業排程器服務取消。 例如,如果 HPC 作業排程器服務超過其運行時間或先佔作業,就可以取消作業。

工作在作業擁有者或叢集管理員開始執行之前已取消。 如果取消執行的工作,工作會標示為 失敗

若要取消作業或工作,請參閱 取消作業或工作 - 作業管理員強制取消作業或工作 - 作業管理員

其他參考