瞭解 Azure 節點可用性原則
Azure 節點可用性原則會決定如何及何時啟動 Azure 節點(角色實例部署在 Azure 中)和已停止(角色實例在 Azure 中移除)。
您有下列兩個選項可設定 Azure 節點的可用性:
自動 節點會自動設定為已啟動(已布建),然後在每週一或多個排程間隔期間進入 Online 狀態。 當您想要讓節點可供執行作業時,每周可以指定多次。 在每次區塊結束時,節點會自動停止:節點會脫機並移除角色實例。 您可以選擇性地在節點上執行的任何作業清空時,指定在線區塊結尾之前的時間間隔。
手動 若要讓 Azure 節點可供執行作業,您必須先手動啟動 (布建) 節點,然後讓節點上線。
其他考慮
在某些情況下,布建 Azure 角色實例可能需要幾分鐘的時間,而停止和刪除實例也需要幾分鐘的時間。
只有在 Azure 中佈建角色實例之後,節點才能在在線時間區塊中執行作業。 節點啟動的排程時間(並上線)不包含 Azure 布建角色實例所花費的時間。
如果已將自動可用性原則設定為最佳做法,除了您希望節點可供執行作業的時間之外,在每次在線時間區塊中規劃 60 分鐘的時間。 您也應該避免在短時間內排程在線時間區塊。
編輯 Azure 節點可用性原則會變更已使用節點範本新增至 HPC 叢集之節點的原則,以及您稍後新增的節點。 例如,您可以編輯 Azure 節點範本,讓設定為根據每周排程自動啟動和停止的節點現在已設定為手動啟動和停止。
根據 Azure 節點範本中可用性原則的設定和作業排程器設定中的 [工作取消寬限期] 設定而定,Azure 節點停止且部署結束的確切時間可能會與在線時間區塊的排程結束不同。 當 HPC 工作仍在接近在線時間區塊結束時執行時,就會發生這種情況。 如需詳細資訊,請參閱 可用性原則與工作取消寬限期設定的互動一節。
可用性原則與 [工作取消寬限期] 設定的互動
設定自動可用性原則時,Azure 節點不會在在線時間區塊通過之後啟動作業。 不過,如果已設定 [工作取消寬限期] 設定,仍在在線時間區塊結尾執行的 HPC 工作可以繼續執行一段時間。 [工作取消寬限期] 叢集屬性會設定應用程式儲存狀態資訊並在結束前清除的時間週期(預設期間為 15 秒)。 工作結束的確切時間取決於工作是否回應CTRL_BREAK事件的速度(相當於 CTRL+BREAK 鍵組合)。 未處理事件的工作會立即結束,而處理事件的工作可能需要一段工作取消寬限期才能正常結束。
下表摘要說明由於 Azure 節點可用性原則與工作取消寬限期設定之間的互動,HPC 工作何時停止執行。 可能的影響和因應措施會列出。 互動會根據可用性原則中是否設定「清空」期間而有所不同。 清空期間是選擇性設定,指定在線時間區塊結束前的分鐘數,在此期間,當這些節點上不會啟動任何新工作時。
可用性原則中設定的工作清空期間 | 工作取消寬限期開始時 | 執行 HPC 工作結束時 | 影響 | 因應措施 |
---|---|---|---|---|
是的 | 清空期間開始 | 工作取消寬限期的開頭和結尾之間,視工作在收到訊號時結束,還是使用任務取消寬限期所提供的時段而定。 可以在排定的在線時間區塊結束之前。 範例 - 排定的在線時間區塊結束:下午 8:00 - 寬限期:5 分鐘 - 清空期間:10 分鐘 執行中的工作將在下午 7:50 到 7:55 之間結束 |
- Azure 節點已停止,且部署比預期更早關閉。 - HPC 工作的 Azure 資源使用量可能不是最佳。 |
- 將 [任務取消寬限期] 調整為與清空期間相同,或儘可能類似。 - 如果您的應用程式允許,請為清空期間和寬限期指定小值。 |
不 | 已設定的在線時間區塊結束 | 工作取消寬限期的開頭和結尾之間,視工作在收到訊號時結束,還是使用任務取消寬限期所提供的時段而定。 可以在排定的在線時間區塊結束之後。 範例 - 排定的在線時間區塊結束:下午 8:00 - 寬限期:5 分鐘 執行中的工作將在下午 8:00 到 8:05 之間結束 |
- 只要工作取消寬限期,HPC 工作就可以繼續執行超過在線時間區塊結尾。 - 只要工作取消寬限期,就可以將 Azure 節點部署延伸至節點時間區塊的結尾。 |
- 如果您的應用程式允許,請將 [工作取消寬限期] 調整為較小的值。 |
另請參閱
設定適用於 Microsoft HPC Pack 的 Azure 節點範本
了解節點狀態、健康情況和作業
工作取消寬限期
設定 Azure Proxy 節點數目