了解節點狀態、健康情況和作業
節點狀態 反映節點的部署狀態,以及系統管理員是否希望節點作為叢集作業的資源。 系統管理員會將節點帶到 Online 狀態,以指出節點應該接受作業或用戶端要求。
節點健康情況 指出 HPC 服務在該節點上是否有任何警告或錯誤。 如果節點的節點健康情況值為 錯誤,則節點將無法接受作業或用戶端要求,即使節點狀態 Online也一樣。
在正常作業期間,節點的健全狀況值為 OK。 下列清單描述一般節點狀態值:
前端節點的節點狀態值為 離線。 如果前端節點也做為計算節點或 WCF 訊息代理程式節點,或是安裝前端節點以進行高可用性,則其一般節點狀態值會 Online。
計算節點和 Windows Communication Foundation (WCF) 訊息代理程式節點的節點狀態值為 Online。
根據可用性原則,工作站節點的節點狀態值為 Online 或 脫機。
在 Windows Azure 中定義但未部署的 Windows Azure 節點具有一般節點狀態值,[未部署]。 部署的 Windows Azure 節點具有一般節點狀態值 Online。
監視和維護叢集健康情況程式的一部分,是發現與一般節點狀態和健康情況的偏離,以及監視叢集作業的狀態。
本主題中的各節描述下列值:
節點狀態
節點狀態會反映節點的部署狀態,以及系統管理員是否希望節點作為叢集作業的資源。
當前端節點第一次偵測到網路上的內部部署節點時,節點會出現在 未知 狀態。 當系統管理員藉由指派節點範本將節點新增至叢集時,節點會移至 布建 狀態。 當節點成功加入叢集時,它會移至 脫機 狀態。
當系統管理員將 Windows Azure 節點新增至叢集時,它們會出現在 未部署 狀態。 當 Windows Azure 節點啟動時(這表示實例部署在 Windows Azure 中),節點會移至 布建 狀態。 布建成功完成之後,手動啟動的 Windows Azure 節點會進入 離線 狀態,而啟動的 Windows Azure 節點會自動進入 Online 狀態。
當系統管理員將工作站節點和 Unmanaged 伺服器節點新增至叢集,並在指派節點範本之後,可以讓它們上線以執行叢集作業,然後離線以繼續其一般工作負載。 在節點範本中設定為上線且手動脫機的節點,一開始會脫機。 設定為根據每周可用性原則讓其上線和離線的節點會開始遵循該原則,而且會在排程間隔期間自動上線。
系統管理員將節點 Online,或採用節點 離線,以指出節點是否應該接受和執行叢集作業。 根據每周可用性原則,Windows Azure 節點和工作站節點也可以 Online 或 脫機。 HPC 作業排程器服務只會嘗試在處於 Online 狀態的節點上啟動新的作業。 若要讓節點無法用於新的作業,系統管理員可以將節點 離線。 節點必須處於 離線 狀態,才能執行某些管理動作,例如 重新映像 或 維護。
您可以使用節點清單檢視來顯示每個節點的狀態,並依節點狀態篩選計算節點。
下表描述節點狀態值:
節點狀態 | 描述 |
---|---|
Online | 此狀態表示節點應該接受並執行叢集作業。 針對WCF Broker節點,此狀態表示應該可供管理SOA工作階段。 HPC 作業排程器服務只會嘗試將工作配置給處於 Online 狀態的節點。 節點必須處於 Online 節點狀態,且狀況良好,才能執行作業(或管理會話)。 如果節點健全狀況 錯誤,作業將無法在該節點上啟動。 節點可以 在線 或叢集管理員 離線。 Windows Azure 節點、工作站節點和 Unmanaged 伺服器節點也可以根據每周可用性原則,Online 或 脫機。 |
離線 | 此狀態表示節點不應該用來執行叢集作業。 針對WCF Broker節點,這表示不應該用來管理SOA會話。 此狀態可讓叢集管理員執行腳本、安裝軟體,以及在節點上執行其他工作。 這是叢集管理員核准節點以納入叢集之後,節點的默認狀態。 這是前端節點的正常狀態(除非安裝高可用性)。 如果您想要讓前端節點 在線 執行其他節點角色,例如計算節點或 WCF Broker 節點。 如需詳細資訊,請參閱 瞭解MICROSOFT HPC Pack中的節點角色。 節點可以 在線 或叢集管理員 離線。 Windows Azure 節點、工作站節點和 Unmanaged 伺服器節點也可以根據每周可用性原則,Online 或 脫機。 如果在執行中作業時讓節點離線,它會先流覽 清空 狀態。 如果系統管理員選擇立即強制節點離線,任何執行中工作都會在工作內取消並重新排入佇列。 |
未知 | 此狀態表示節點不是叢集的一部分,或布建作業在該節點上失敗。 若要將節點加入叢集,請將 指派節點範本 動作套用至節點。 在高可用性叢集中,在第一個前端節點上執行安裝程序之後,第二個前端節點將會處於 未知 狀態,直到該節點上執行安裝程序為止。 設定之後,第二個前端節點會移至 Online 狀態。 |
布建 | 內部部署節點 此狀態表示節點正在設定為叢集節點。 指派節點範本、重新映射,以及 維護 動作也會讓節點進入布建狀態。 布建完成之後,節點會移至 離線 狀態。 Windows Azure 節點 此狀態表示節點實例正在 Windows Azure 中部署。 Start 動作或自動可用性原則可以將 Windows Azure 節點置於布建狀態。 布建成功完成之後,手動啟動的 Windows Azure 節點會進入 離線 狀態,而啟動的 Windows Azure 節點會自動進入 Online 狀態。 |
開始 | 此狀態表示節點正從離線 模式 |
清空 | 此狀態表示節點已離線,且正在轉換為離線 離線 狀態。 節點會在進入離線 狀態之前,完成目前執行中的作業。 清空 節點不接受新的作業。 |
移除 | 此狀態表示即將從 HPC Node Management Services 資料庫移除節點的相關信息。
Delete 動作會將節點置於此狀態。 已刪除的節點本身不會變更任何專案。 如果節點嘗試重新加入叢集,將會為資料庫中的該節點建立新的專案,而節點將會以 未知 狀態顯示。 |
拒絕 | 此狀態表示節點遭到叢集管理員拒絕。 |
未部署的 | 此狀態僅適用於 Windows Azure 節點。 此狀態表示 Windows Azure 節點已定義並新增至叢集,但尚未在 Windows Azure 中啟動和布建節點(尚未在 Windows Azure 中建立節點實例)。 Windows Azure 節點會根據節點範本中定義的可用性原則進行部署:手動(使用 開始 動作),或根據每周排程自動部署。 未部署 狀態中的 Windows Azure 節點不會在 Windows Azure 中產生費用。 |
停止 | 此狀態僅適用於 Windows Azure 節點。 此狀態表示 Windows Azure 節點實例正在從 Windows Azure 中移除。 Windows Azure 節點會根據節點範本中定義的可用性原則停止:手動(使用 停止 動作),或根據每周排程自動停止。 當停止作業完成時(節點實例已從 Windows Azure 移除),節點會移至 [未部署的 狀態。 |
節點健康情況
節點健康情況 指出 HPC 服務在該節點上是否有任何警告或錯誤。
您可以使用節點清單檢視來顯示每個計算節點的健康情況,並依節點健康情況篩選節點。 如果節點健全狀況 錯誤 或 警告,請檢閱 [節點健康情況] 索引卷標上的資訊以取得其他詳細數據。 您可以在 [詳細數據] 窗格(在列表檢視中),或按兩下節點,檢視 [節點健全狀況] 索引標籤。
下表描述節點健康情況值:
節點健康情況 | 描述 |
---|---|
確定 | HPC 服務並不知道節點有任何問題。 |
警告 | 此值可以指出下列各項: - 叢集管理員在節點上執行診斷測試,而一或多個測試傳回 失敗 或 無法執行的結果。 系統管理員可以手動清除診斷警示(請參閱 解決和清除診斷警示)。 - 一或多個節點作業處於 失敗、還原或 已取消 狀態。 讀取作業記錄檔 以調查問題。 檢閱 [節點健康情況] 索引卷標中的資訊,開始調查問題。 |
錯誤 | 此值可以指出下列各項: - 無法連線到節點,如 活動訊號選項所決定,。 - 布建失敗。 - 叢集管理員拒絕節點。 (如果您決定將節點加入叢集,則可以指派節點範本。 檢閱 [節點健康情況] 索引卷標中的資訊,開始調查問題。 |
過渡 | 這個值表示節點正在執行叢集系統管理員起始的作業,例如: - 指派節點範本、重新映射或 維護(在此情況下,節點狀態 布建)。 - 啟用在線(在此情況下,節點狀態 啟動)。 - 離線(在此情況下,節點狀態 清空)。 - Windows Azure 節點的開始(在此情況下,節點狀態 布建)。 檢視 [節點健全狀況] 索引卷標以取得其他資訊,或取消作業。 |
未經核准的 | 內部部署節點 前端節點偵測到節點,但不是叢集的一部分。 指派節點範本以將節點加入叢集。 另請參閱 將節點新增至叢集。 Windows Azure 節點 節點已新增至叢集,但節點尚未在 Windows Azure 中啟動並布建(節點實例不存在於 Windows Azure 中)。 |
作業狀態
如需如何檢視作業記錄的資訊,請參閱 讀取作業記錄檔。
下表描述作業狀態值:
作業狀態 | 描述 |
---|---|
封存 | 作業超過24小時,或已清除診斷測試。 當作業封存時,它會從其他狀態報告中移除。 |
認可 | 作業已順利完成。 |
執行 |
作業正在進行中。 |
失敗 | 作業無法執行。 |
還原 | 正在還原作業。 完成作業清除時,作業會移至 還原 狀態。 |
無法還原 | 作業的清除未成功。 |
還原 | 作業在失敗或取消之後還原。 |