管理作業佇列
在 [作業管理] 中,您可以監視和管理提交至叢集的工作。 在作業清單中,每個數據列都代表作業,而數據行會顯示作業屬性、作業狀態和計量值。 作業清單提供一個起點,可向下切入作業詳細數據,以及在一或多個作業上執行動作。
作業佇列的順序是以作業優先順序和提交時間為基礎。 優先順序較高的作業會在優先順序較低的作業之前執行。 作業提交時間會決定每個優先順序內的順序。 您可以透過下列方式協助規範工作佇列的順序:
建立 作業範本,為不同類型的作業或不同使用者集定義有效的優先順序範圍。
修改已提交作業的優先順序,以變更作業佇列的順序。 您可以指定 優先順序,以優先順序範圍、優先順序編號或兩者的組合來指定。 數值優先順序可以有介於0(最低)和4000之間的值(最高)。
本主題提供如何管理和監視叢集作業的概觀。
設定作業排程原則
作業提交原則: 作業範本是您定義叢集自定義作業提交原則的主要方法。 作業範本可讓您將作業屬性的一組預設值和值條件約束與一組特定的用戶產生關聯。 如需詳細資訊,請參閱 作業範本。
資源配置原則: 作業排程器組態決定如何將資源配置給佇列的工作。 當您設定 HPC 作業排程器服務時,您可以設定排程原則(例如平衡模式或佇列模式、先佔和回填)、錯誤處理和作業歷程記錄選項。 如需詳細資訊,請參閱 設定 HPC 作業排程器服務。
進階原則強制執行和授權感知排程: 您可以藉由建立自定義作業提交篩選器和作業啟用篩選來強制執行網站特定的作業提交原則和作業啟用原則(例如授權感知排程)。 如需詳細資訊,請參閱 瞭解啟用和提交篩選。
檢視作業和工作
監視作業: 作業清單會顯示叢集中作業的相關信息。 您可以篩選和排序列表,然後選擇要在清單中顯示的作業屬性和計量值。 如需詳細資訊,請參閱 篩選和排序作業清單。
鑽研作業詳細數據: 當您按兩下清單中的作業時,該作業的詳細資訊會出現在 [詳細資料窗格]中。 您也可以檢視作業和工作結果。 如需詳細資訊,請參閱 檢視作業或工作。
追蹤一段時間的作業統計數據: HPC Cluster Manager 提供數個圖表和報告來追蹤叢集的作業統計數據。 如需詳細資訊,請參閱 圖表和報表:HPC Cluster Manager。
執行作業和工作動作
身為叢集管理員或作業擁有者,您可以執行下列動作:
取消作業或工作:從佇列中移除作業或工作,並釋放其資源。
強制取消作業或工作:立即停止作業或工作。
重新排入工作或工作:將未完成的工作或工作放回佇列。
修改作業:變更作業屬性(例如優先順序層級)或將工作新增至使用中作業。
設定和清除作業的排除節點:如果您注意到特定節點上的工作一致失敗,您可以將該節點從一或多個作業中排除。 如果您解決節點上的問題,您可以從任何使用中作業 排除的節點 屬性清除該節點。
設定進度和進度訊息作業屬性:提供作業的自定義進度資訊。
複製作業或工作:再次執行作業,as-is或變更。
將作業或工作儲存至檔案:將作業或工作規格匯出至 XML 描述檔。
本節內容
為作業 設定和清除排除的節點