瞭解作業和工作狀態
在 HPC Pack 中,作業和工作有幾乎相同的生命周期狀態。 主要生命周期狀態為 設定、佇列、執行、完成、失敗,以及 取消。 工作和工作也會經歷短暫的過渡狀態。 下表摘要說明所有生命周期狀態。
作業和工作狀態
州 | 定義 |
---|---|
設定 | 作業或工作位於系統中,但尚未提交至佇列。 |
提交 | 作業或工作已提交,且正在等候驗證,才能排入佇列。 |
驗證 | HPC 作業排程器服務正在驗證作業或工作。 在驗證期間,HPC 作業排程器服務會確認許可權、針對作業擁有者未指定的任何屬性套用預設設定,並針對條件約束驗證每個屬性。 默認設定和條件約束是由作業範本所定義。 如需作業範本的詳細資訊,請參閱 瞭解作業範本 - 作業管理員。 HPC 作業排程器服務也會確認作業屬性包含所有工作屬性(例如,沒有工作具有比作業運行時間更大的運行時間)。 在驗證期間,作業也可能通過叢集管理員所定義的自定義提交篩選應用程式。 如果作業通過驗證,它會移至已排入佇列 狀態 |
佇列 | 作業或工作已通過驗證,並正在等候排程和啟動(執行)。 當執行中作業、基本 工作或 參數掃掠 子工作被 HPC 作業排程器服務先佔時,它會回到 佇 佇列 狀態(除非工作無法重新執行,在此情況下,它會標示為 失敗)。 注意: 在 HPC Pack 2012 中,佇列 排程模式中先佔行為的預設選項是工作層級立即先佔,而不是作業層級先佔。 |
分派 | 此狀態僅適用於工作。 HPC 作業排程器服務已將資源配置給工作,並連絡已配置節點以開始執行工作。 當工作啟動時,它會移至執行中 狀態 |
執行 |
作業或工作正在一或多個節點上執行。 |
完成 | 作業或工作已完成,且作業或工作清除正在進行中。 |
已完成 | 作業或工作已順利完成。 |
失敗 | 作業或工作無法完成、停止執行或傳回表示失敗的結束代碼(預設為任何非零結束代碼)。 此外,當下列情況下,執行中的工作會標示為 失敗: - 作業擁有者或叢集管理員會取消工作。 - HPC 作業排程器服務會取消工作,因為它已超過其最大運行時間。 - HPC 作業排程器服務會先佔未標示為可重新執行的工作。 - HPC 作業排程器服務會先佔每個資源啟動的子工作(節點準備、節點發行,以及 Service 子工作)。 如果作業或工作因為叢集失敗而無法啟動,作業或工作就會自動重試指定的次數,再將其標示為 失敗。 |
取消 | 作業或工作已取消,且清理正在進行中。 |
已取消 | 作業由作業擁有者、叢集管理員或 HPC 作業排程器服務取消。 例如,如果 HPC 作業排程器服務超過其運行時間或先佔作業,就可以取消作業。 工作在作業擁有者或叢集管理員開始執行之前已取消。 如果取消執行的工作,工作會標示為 失敗。 若要取消作業或工作,請參閱 取消作業或工作 - 作業管理員 或 強制取消作業或工作 - 作業管理員。 |