共用方式為


了解原則設定

原則組態設定可控制如何將資源配置給佇列或執行中的作業。 排程模式 可讓您優化大型批次和 MPI 工作負載或服務工作負載的資源配置。 如需如何變更組態選項的詳細資訊,請參閱 設定 HPC 作業排程器服務

下表摘要說明這兩種排程模式及其預設組態:

排隊 平衡
描述 依佇列順序啟動作業,並嘗試將要求的資源上限配置給執行中的作業。

- 儘快完成最高優先順序的工作
- 嘗試為作業提供其要求的資源上限
- 最小化作業運行時間
- 作業佇列中較長的時間等候優先順序較低的作業
- 可用資源首先用來符合執行中作業的資源要求上限,然後啟動新的作業(啟用調適型資源配置時(成長/壓縮)
嘗試盡其最低資源需求儘快啟動所有連入作業。 如果有其他資源可用,請根據優先順序增加作業。

- 儘快啟動所有傳入的工作
- 從提供作業的最低資源開始,然後盡可能根據優先順序和所要求的資源進行平衡來新增資源
- 將作業佇列中的等候時間降至最低
- 作業需要較長的時間才能完成
- 即使執行中具有較高優先順序,也可以從執行中作業取用資源,以啟動新的作業
已針對 優化 - 大型 MPI 和批次作業
- 長時間執行的工作
- 參數掃掠
- 互動式工作負載,例如服務導向架構 (SOA) 作業和服務類型應用程式
- 短期執行的工作
- 參數掃掠
其他設定 - 先佔
默認值:正常先佔
- 調適型資源配置(成長/縮小)
預設值:自動增加和減少已啟用兩者的資源

請參閱本主題中的 佇列模式設定
- 先佔
默認值:立即先佔 注意:從 HPC Pack 2012 Service Pack 1 (SP1) 開始, 先佔設定只能在平衡模式中設定。 在舊版中,在 [平衡] 模式中,先佔一律為 [立即]。
- 優先順序偏差
默認值:中偏差
- 重新平衡間隔
預設值:10 秒

請參閱本主題中的 平衡模式設定

佇列模式設定

在佇列模式中,HPC 作業排程器服務會依佇列順序啟動作業,並嘗試將要求的資源上限配置給執行中的作業。 下列各節說明與佇列模式相關聯的先佔和調適型資源配置設定。

作業先佔

先佔可讓在佇列中等候的較高優先順序作業,藉由從較低優先順序的資源中取出資源,先占已執行的 作業來啟動。 如果您啟用先佔 原則來啟用 成長(請參閱下方的「調適型資源配置」),則先佔也會用來協助提高優先順序,執行作業達到其最大資源要求(從 HPC Pack 2008 R2 Service Pack 2 開始提供 (SP2)。

注意

Preemptable job 屬性是由作業範本中的系統管理員所定義。 使用作業範本來定義可先佔的作業類型,或可提交先佔或不可佔用作業的使用者集合。 透過 HPC 叢集管理員、HPC 作業管理員、HPC PowerShell 或 HPC 命令行工具提交作業時,無法定義預先。 如果選取的作業範本同時指定 True 和 False 作為 Preemptable 作業屬性的有效值,則只能使用 HPC API 來執行這項操作。

在佇列模式中先佔具有下列選項:

  • 正常先佔(預設值):從先佔工作取得資源,使其執行中工作完成,讓工作不會遺失。

  • 立即先佔:藉由取消所有執行中的工作,從先佔的工作取得資源,以便立即將資源配置給高優先順序作業。 如需作業和工作取消的詳細資訊,請參閱 取消作業或工作一節中的 其他考慮 一節。

  • 工作層級先佔(在 HPC Pack 2008 R2 中引進 SP3):啟用先佔個別工作,而不是整個作業。 使用預設的立即先佔設定,排程器會取消整個作業,如果其任何資源需要較高的優先順序作業。 當您啟用工作層級先佔時,排程器會改為取消個別工作。 例如,如果一般優先順序作業在1個核心上執行100個工作,而且提交高優先順序工作需要10個核心,則工作層級先佔會取消10個工作,而不是取消整個作業。 這個選項可以藉由將因先占而必須完成的重新作業量降到最低,以改善作業輸送量。

    注意

    從 HPC Pack 2012 開始,在佇列排程模式中,先占行為的預設選項是工作層級立即先佔,而不是作業層級先佔。 此預設行為表示,只有需要一樣多的低優先順序工作才能提供較高優先順序工作所需的資源,而不是先佔低優先順序作業中的所有工作。

    注意

    從 HPC Pack 2012 Service Pack 1 (SP1) 開始,服務導向架構 (SOA) 工作會在目前要求完成之後結束工作,即使有額外的要求要計算也一樣。 在舊版的 HPC Pack 中,SOA 作業會結束其工作,只在計算所有要求之後,才會釋放其他作業的資源。

  • 不先佔:不要先占作業。

調適型資源配置

調適型資源配置會根據其工作動態調整配置給作業的資源。 啟用資源調整可能會導致叢集使用率大幅改善,並減少作業佇列時間,特別是針對執行由多個工作組成的作業的叢集,例如參數式掃掠計算。 只有包含多個工作或子工作的作業,才能受益於自動資源調整。

調適型配置具有下列可啟用或停用的設定:

  • 自動 增加資源(預設為啟用):使用可用的資源來增加較高的優先順序,在啟動較低優先順序的工作之前,將作業執行到最大。 啟用自動成長后,HPC 作業排程器服務可以將免費資源配置給執行中具有其他工作可執行的工作。 此服務不會配置比針對作業要求的最大資源多。 這會導致作業在佇列中花費更多時間等候資源,但在啟動資源之後會更快完成。 不論此作業執行中或已排入佇列,可用的資源會先配置給系統中優先順序最高的作業。

    • 先佔 成長(在 HPC Pack 2008 R2 搭配 SP2 中引進):若要協助將優先順序較高的執行作業成長到最大,請使用先佔來從優先順序較低的執行作業中移除資源。 必須先啟用先佔才能使用此設定。
  • 自動減少資源(預設啟用):啟用自動壓縮后,HPC 作業排程器服務可以從執行中沒有額外工作的工作釋放未使用的資源。 服務不會壓縮低於要求作業的最低資源。 自動壓縮會導致較佳的整體叢集使用率,但如果您將工作新增至已在進行中的作業,可能會造成問題。

注意

在預設作業範本中,自動計算最大值自動計算迷你媽媽的作業屬性會設定為預設值 True。 如果作業範本指定 True 是這些屬性的唯一有效值,則送出的使用者不會選擇指定以該範本提交之作業的最大和最小資源,而且資源會根據作業中的工作自動計算。

平衡模式設定

在平衡模式中,HPC 作業排程器服務會嘗試盡其最低資源需求儘快啟動所有連入作業。 佇列中的所有作業都有其最低資源之後,會根據其優先順序,將額外的叢集資源配置給作業。 資源配置會定期重新平衡以填滿閑置資源、啟動新作業,並根據 [優先順序偏差] 設定來調整配置。 下列各節說明與平衡模式相關聯的設定。

注意

  • 在節點群組重迭的情況下,平衡排程會受到限制。 平衡模式在非重疊的節點群組中更有效率。
  • 如果您指定作業應該在單一節點上執行(從 HPC Pack 2012 開始可用),HPC 作業排程器服務所執行的平衡可能會受限於叢集上執行的其他作業。

作業先佔

在平衡模式中先佔,可讓佇列中等候的工作,藉由將資源從已執行的搶佔作業中取出來更快啟動。

重要

從 HPC Pack 2012 Service Pack 1 (SP1) 開始,HPC 系統管理員只能設定平衡模式中的先佔設定。 在舊版 HPC Pack 中,平衡模式中的先佔一律為 Immediate。

注意

Preemptable job 屬性是由作業範本中的系統管理員所定義。 使用作業範本來定義可先佔的作業類型,或可提交先佔或不可佔用作業的使用者集合。 透過 HPC 叢集管理員、HPC 作業管理員、HPC PowerShell 或 HPC 命令行工具提交作業時,無法定義預先。 如果選取的作業範本同時指定 True 和 False 作為 Preemptable 作業屬性的有效值,則只能使用 HPC API 來執行這項操作。 (預設值為 True。)

在平衡模式中先佔具有下列選項:

  • 立即先佔 (預設值):取消並重新排入足夠的執行中工作,讓資源可以立即配置給另一個作業,以從先佔作業取得資源。 針對大部分的叢集工作負載,平衡模式中的立即先佔可讓更多作業在指定的時段內啟動。 基於這個理由,建議在大部分情況下達到平衡的排程。

  • 正常先佔:從先佔工作取得資源,使其執行中工作完成,讓工作不會遺失。 這是只應針對特定工作負載啟用的進階設定。 例如,使用平衡模式與由長時間執行的工作組成的服務導向架構 (SOA) 作業時,可能會加以考慮,其中必須讓每個中繼工作重新調整結果。

    謹慎

    平衡模式中的正常先佔可能會減緩啟動新作業的回應時間,並可降低平衡速度。 啟用平衡模式中的正常先佔時,應該仔細測試並監視叢集。 如需詳細資訊,請參閱下列其他考慮。

平衡模式中先佔的其他考慮

  • 平衡速度 平衡模式會嘗試儘快平衡作業,預設會使用立即先佔。 如果您選擇在平衡模式中啟用正常先佔,則平衡只能以工作結束的速率進行。 如果叢集上有長時間執行的工作,平衡可能需要很長的時間。 如果傳入作業的速率超過結束工作的速率,叢集只會在有足夠的工作結束以重新配置資源時平衡。

  • 資源使用率 根據預設,HPC 作業排程器服務會立即先佔工作,以釋放任何等候作業所需的資源(例如核心、節點或套接字)。 不過,如果啟用正常先佔,則不論等候工作的資源需求為何,資源都會釋放為結束工作。 釋放的資源可能不是下一個等候工作所需的資源,而且資源可能會保持閑置,直到其他工作完成為止。

優先順序偏差

優先順序偏差 控制如何將其他資源配置給作業。 在平衡模式中,「其他資源」是指叢集資源高於所有執行中作業的總最小資源。 在其他資源上執行的工作可以立即取消,以容納新的作業,或交集在所需的配置模式上。

優先順序偏差 具有下列選項:

  • 高偏差:所有其他資源都會配置給較高優先順序的工作。

  • 中偏差(預設值):每個 優先順序的頻帶,其額外資源比例高於其下方的帶數。 優先順序範圍 最高高於標準標準、低於標準最低

  • 沒有偏差:其他資源會平均配置到作業佇列。

重新平衡間隔

重新平衡間隔 代表重新平衡階段之間的時間,以秒為單位。 預設值為10秒。

較長的間隔可以改善排程器效能,但回應新作業需要較長的時間,並交集在所需的配置模式上。 如果您不需要立即成長和縮小,則較長的間隔是不錯的。 如果您的叢集具有高轉機率(作業經常提交且快速完成),您可能會想要較長的間隔,以避免過度成長和縮小。

較短的重新平衡間隔會在提交新作業時提供更快的回應,代價是前端節點上的額外負載。 如果您需要更快速的回應,您可以調整的其他設定是工作取消寬限期和發行工作逾時,這可能會導致執行工作需要較長的時間才能被推出。

其他參考