驗證故障轉移叢集的硬體
本文提供驗證故障轉移叢集硬體的步驟。 您可以使用整合至故障轉移叢集管理員或 Test-Cluster Windows PowerShell Cmdlet 的驗證精靈來執行一組聚焦的驗證測試。 您可以在要做為叢集節點使用的一組伺服器上執行此程序。 此程序會以直接和個別方式測試相關的硬體與軟體,以正確評估指定的設定對容錯移轉叢集的支援程度。
重要
Microsoft 需要您提供叢集驗證報告,才能對指定的設定提供 Microsoft 支援服務。
Task | 描述 |
---|---|
步驟 1:準備驗證故障轉移叢集的硬體 | 了解叢集驗證及 Microsoft 對叢集設定的支援,並準備您的硬體以執行驗證測試。 |
步驟 2:驗證新的或現有的故障轉移叢集 | 執行驗證設定精靈或 Test-Cluster Windows PowerShell Cmdlet。 |
步驟 3:分析驗證結果 | 檢閱驗證完成時所建立的摘要報告。 如果發生失敗且需要支援,請準備一份驗證報告給 Microsoft 客戶服務與支援部門。 |
進階驗證案例 | 如果您需要驗證現有的叢集並選擇只測試某些方面的叢集功能,請檢閱這些進階案例。 |
常見問題集 | 尋找關於叢集驗證程序問題的解答。 |
步驟 1:準備驗證容錯移轉叢集的硬體
什麼是叢集驗證?
[驗證設定精靈] 或 [測試叢集] Windows PowerShell Cmdlet 可讓您在計劃用來作為故障轉移叢集 的伺服器、網络和相關聯的記憶體集合上執行一組焦點測試。 叢集驗證程序會測試相關的硬體與軟體,以正確評估指定的設定對容錯移轉叢集的支援程度。
建立故障轉移叢集之前,建議您執行所有叢集驗證測試。
叢集驗證的目的是要執行下列動作:
- 在實際應用容錯移轉叢集之前先發掘硬體或設定問題。
- 協助確保您部署可靠的叢集解決方案。
- 提供現有叢集的硬體變更時的驗證方式。
- 對現有的叢集執行診斷測試。
常見的驗證案例
下列清單說明需要或有用的硬體驗證案例。 一般而言,您需要執行所有的驗證測試 (有一些已知的例外)。
設定叢集之前的驗證
準備成為容錯移轉叢集的一組伺服器
這是最直接的驗證案例。 硬體元件(系統、網路和記憶體)已連線,但系統無法作為叢集運作。 在此情況下執行測試對可用性沒有影響。
複製的系統或以映像建立的系統
使用您複製到不同硬體的系統或以映像建立到不同硬體的系統時,就像處理任何新叢集一樣,您必須執行驗證設定精靈。 建議您在連線硬體元件和安裝容錯移轉叢集功能後立即執行精靈,然後才讓客戶使用叢集。
虛擬伺服器
在叢集建立虛擬伺服器後,就和處理任何新叢集一樣執行驗證設定精靈。 無論您擁有的是「主機叢集」(容錯移轉發生在兩部實體電腦之間)、「客體叢集」(容錯移轉發生同一部實體電腦的客體作業系統之間) 或是包含一或多部虛擬伺服器的一些其他設定,執行精靈的需求都一樣。
叢集只有一個節點時的驗證
對於您計劃在叢集中使用的單一伺服器,您可能只想執行有限數目的驗證測試。 在此情況下,無法執行某些測試;例如,確認伺服器之間的軟體和軟體更新相符的測試,以及模擬節點之間故障轉移的記憶體測試。 您的叢集中至少需有兩個節點,才能完成叢集驗證程序。 因此,如果您將更多伺服器帶入設定中,您必須再次執行叢集驗證精靈,以便完成所有測試。
叢集設定後和使用時的驗證
確認 Microsoft 支援的驗證,或排除設定問題
如果您需要來自Microsoft的支援,您可能需要從精靈提供驗證報告。 如果您尚未執行精靈並儲存報表,您可能需要讓叢集脫機以執行精靈。 報告會顯示您的設定是否受支援,並且可協助 Microsoft 客戶支援疑難排解關於硬體、驅動程式及基本系統設定等方面的設定問題。
新增節點之前
當您將伺服器新增至叢集時,建議您先將伺服器連線到叢集網路和記憶體,然後執行驗證設定精靈,並指定現有的叢集節點和新節點。
連接新的存放裝置時
當您將新的記憶體連結至叢集時(這與在現有記憶體中公開新的邏輯單元編號 (LUN) 不同),您必須執行 [驗證設定精靈] 以確認新的記憶體功能正確無誤。 若要將可用性的影響降到最低,建議您在附加記憶體之後執行精靈,並在叢集服務或應用程式中開始使用新的 LUN 之前執行。
進行的變更會影響韌體或驅動程式時
如果您想將叢集升級或進行需變更韌體或驅動程式的其他變更時,必須執行驗證設定精靈,以確認硬體、韌體、驅動程式和軟體的新組合可支援您的容錯移轉叢集功能。 如果變更會影響存放裝置的韌體或驅動程式,建議您保留少量可用的 LUN (叢集角色未使用的),如此一來,不需使叢集角色離線也能執行存放裝置驗證測試。
從備份還原系統之後
從備份還原系統後,執行驗證設定精靈來確認系統可以做為叢集的一部分正常運作。 在驗證測試完成之前,系統不會被視為支持的系統。
當您在驗證對現有叢集的硬體變更 (進階案例) 時,您可以決定省略某些存放裝置測試。 如需詳細資訊和考慮,請參閱 進階驗證案例。
驗證測試的類別
下表列出驗證測試的類別。 當您執行驗證設定精靈時會列出每個類別的測試。 驗證完成後儲存的驗證報告中則會提供每個類別中每項測試的描述。
類別 | 描述 |
---|---|
叢集組態 | 列出和驗證設定為供叢集中使用的資源,包括叢集角色和叢集磁碟區。 |
Hyper-V 設定 | 驗證使用於容錯移轉叢集中的 Hyper-V 設定。 注意:只有在您使用或計劃使用叢集虛擬機時,才需要 Hyper-V 組態測試。 |
清查 | 列出叢集電腦上使用的主機匯流排介面卡 (HBA)、裝置、程序及驅動程式。 |
網路 | 驗證叢集網路、IP 位址及 Windows 防火牆的設定。 |
儲存體 | 驗證容錯移轉叢集中可用的儲存磁碟與檔案系統。 |
系統設定 | 驗證叢集電腦上的作業系統、更新層級與服務設定。 |
步驟 2:驗證新的或現有的容錯移轉叢集
此步驟提供執行驗證設定精靈或 Test-Cluster Windows PowerShell Cmdlet 的程式,以驗證新的或現有的故障轉移叢集。
重要
若要開始新增硬體 (例如額外的伺服器) 至容錯移轉叢集的程序,請將硬體連線至容錯移轉叢集。 然後,執行 [驗證設定精靈],並指定您想要包含在叢集中的所有伺服器。 除了獨立的元件 (如個別伺服器) 外,精靈還會測試叢集連線能力與容錯移轉。
執行驗證設定精靈
指定您要測試的一或多部伺服器。
- 如果叢集尚未存在,請選擇您想要包含在叢集中的伺服器,並確定您已在這些伺服器上安裝故障轉移叢集功能。 如果未安裝此功能,請參閱 安裝指示。
- 如果叢集已經存在,請確定您知道叢集名稱或叢集節點的名稱。
檢閱您要驗證之網路或記憶體的硬體叢集需求,並確認其已連線到伺服器。
決定要執行所有可用的驗證測試,或只執行部分可用的驗證測試。 一般而言,我們建議您執行所有測試,但下列一般指導方針可協助您決定。
叢集類型 驗證測試 與所有硬體連線的新叢集或計劃叢集 所有測試 與部分硬體連線的新叢集或計劃叢集 系統設定測試、清查測試及適用於已連線硬體的測試 (也就是說,如果已連線網路,即執行網路測試;或者,如果已連線存放裝置,則執行存放裝置測試) 您計劃要新增伺服器的現有叢集 所有測試
注意:在執行測試之前,請務必連接您打算在叢集中擁有之所有伺服器的網路和記憶體。疑難排解現有的叢集 所有測試,雖然您可以只執行與明顯問題有關的測試。 重要
如果您在啟動精靈時使用磁碟叢集角色,精靈會提示您是否要讓該叢集角色脫機進行測試。 如果您選擇讓叢集角色離線,在測試完成之前叢集角色將保持離線狀態。
若要開啟精靈,請在 [故障轉移叢集管理員] 中,選取 [動作] 底下的 [驗證組態]。
遵循精靈中的指示指定伺服器 (在計劃叢集中) 和測試。 例如,如果您不打算使用需要 Hyper-V 的叢集功能,您可以省略 Hyper-V 組態測試。 然後精靈會引導您執行測試。
注意
當您在未叢集的伺服器上執行精靈時,必須輸入要測試的所有伺服器名稱,而不是只有一個。
執行測試之後,會出現 [摘要] 頁面。 在 [摘要] 頁面上,選取 [檢視報表] 以檢視測試結果。
若要在關閉精靈之後檢視測試結果,請在 [故障轉移叢集管理員中的動作] 底下,選取 [檢視驗證報告]。 您可以看到 %SystemRoot%\Cluster\Reports\Validation Report <Date and Time>.html,其中 %SystemRoot% 是安裝操作系統的資料夾(例如 C:\Windows)。
Windows PowerShell 對應的命令
下列 Windows PowerShell Cmdlet 執行與前述程序相同的功能。 在單一行上輸入每個 Cmdlet,即使它們可能因為格式限制而出現在數行之間。
下列範例會在名為 node1 與 node2的節點上執行所有叢集驗證測試。 如果 node1 或 node2 已經是叢集的成員,測試作業會包含該叢集內的所有節點。
Test-Cluster -Node node1,node2
步驟 3:分析驗證結果
驗證設定精靈完成之後,故障轉移叢集驗證報告會顯示結果。 所有測試都必須以綠色複選標記通過,或在某些情況下是黃色三角形(警告)。 下表顯示摘要中的符號,並說明它們代表的意義:
符號 | 說明 |
---|---|
對應的驗證測試已通過,表示可支援這個叢集。 | |
對應的驗證測試產生警告,表示可支援這個叢集,但其可能未符合建議的最佳做法而需要檢查。 Microsoft客戶支援可能會要求您調查或解決問題,如果問題似乎直接連結到您要疑難解答的專案。 | |
對應的驗證測試失敗,不支援叢集的這個層面。 您必須先更正問題,才能建立支援的容錯移轉叢集。 | |
對應的驗證測試已取消。 當測試相依於另一個未成功完成的測試時,就會發生這種情況。 |
當您在測試結果摘要中尋找問題區域(警告或失敗),請選取個別測試以檢閱詳細數據。 此外,請檢閱摘要語句,以取得叢集是否為支援的組態的相關信息。
在採取動作更正問題之後,您可以視情況重新執行精靈,以確認設定通過測試。
如果驗證失敗怎麼辦
在大部分情況下,如果驗證設定精靈中的任何測試失敗,則不會將設定視為支援。
如果任何 Hyper-V 組態測試失敗,叢集上的 Hyper-V 未正確設定。 在問題更正後,才能支援叢集中的虛擬機器。 不過,此類別測試中的失敗並不表示叢集虛擬機以外的工作負載不支援叢集。
失敗的測試類型是更正動作的指導方針。 例如,如果 列出所有磁碟 記憶體測試失敗,且後續的記憶體測試不會執行(因為它們也會失敗),您應該連絡記憶體廠商以針對此問題進行疑難解答。 同樣地,如果與 IP 位址相關的網路測試失敗,請連絡您的網路基礎結構小組。 並非所有警告或錯誤均表示需與 Microsoft 客戶支援連絡。 大部分的警告或錯誤都會導致與內部小組或特定硬體廠商合作。
如需更正驗證報告中所列失敗的相關信息,請參閱上一節 的步驟 3:分析驗證結果。
在解決問題並解決之後,必須重新執行驗證設定精靈。 必須順利執行和完成所有測試,才會認定為是支援的設定。
向 Microsoft 要求支援時提供驗證報告
如果您需要連絡 Microsoft 客戶支援以解決驗證問題,支援小組會使用 Microsoft 支援服務診斷工具 (MSDT) 來協助您收集驗證報告和其他相關設定檔 (此功能取代 MPSReports 數據收集公用程式。如有需要,Microsoft會傳送有關如何擷取數據的指示。 在某些情況下,Microsoft可能會要求壓縮 C:\Windows\Cluster\Reports 資料夾的內容並傳送以供分析。 無論是哪一種方法,都會收集必要的叢集驗證報告。
驗證測試的更新
[驗證設定精靈] 提供特定設定可支援故障轉移叢集的準確畫面。 如果 [驗證設定精靈] 的更新可供使用,您可能需要重新執行精靈,並通過所有測試,才能繼續支援您的設定。 這可能會導致某些先前傳遞至失敗的解決方案。 更新的測試中所報告的問題需依照本指南中的方式解決。
進階驗證案例
在您變更現有叢集後,可能不需要執行所有的叢集驗證測試。 下表列出您可能對叢集所做的變更種類,以及要執行的對應測試。
下表所示所需驗證測試的索引鍵:
- 完整:執行一組完整的測試。 這需要將叢集停機一段時間。
- 單一 LUN:執行一組完整的測試,然後只在一個 LUN 上執行存放裝置測試。 LUN 可以是您為了測試或見證磁碟 (如果您的叢集使用見證磁碟) 而保留的一個小型 LUN。 這會驗證儲存子系統,而不是特別針對每個單獨的 LUN 或磁碟。 您可以執行這些驗證測試,但不用將叢集服務或應用程式停機。
- 省略存放裝置測試:執行系統設定、清查及網路測試,不執行存放裝置測試。 您可以執行這些驗證測試,但不用將叢集角色停機。
- 無:不需執行驗證測試。
伺服器變更
變更 | 需要的驗證測試 |
---|---|
實際取代或變更叢集中使用的伺服器 | 完整 |
新增或移除 CPU | 無 |
新增或移除伺服器上的 RAM | 無 |
新增、移除或取代網路介面卡 | 省略存放裝置測試 |
更新韌體或現有的網路驅動程式 | 省略存放裝置測試 |
變更 BIOS 設定或韌體版本 | 無 |
新增或變更網路或存放裝置元件以外的周邊裝置,如 CD-ROM 或 DVD 磁碟機、磁帶機、視訊卡、音效裝置及 USB 裝置 | 無 |
作業系統變更
變更 | 需要的驗證測試 |
---|---|
套用會影響記憶體堆疊的操作系統 Service Pack、軟體更新或 Hotfix | 單一 LUN |
套用不會影響記憶體堆疊的軟體更新或 Hotfix | 省略存放裝置測試 |
安裝沒有核心模式或篩選驅動程式的應用程式 | 無 |
變更或新增核心模式驅動程式 | 單一 LUN |
叢集設定變更
變更 | 需要的驗證測試 |
---|---|
新增節點到叢集 | 完整 |
新增使用不同硬體的節點 | 完整 |
從叢集移除節點 | 無 |
變更仲裁設定 | 無 |
共用存放裝置變更
變更 | 需要的驗證測試 |
---|---|
變更或新增存放裝置陣列 | 完整 |
新增另一個類型相同的 SCSI 硬體 RAID 單元,且該單元使用已存在設定中的 HBA | 單一 LUN |
製作未成年人 (0.x) 記憶體韌體修訂 | 單一 LUN |
對記憶體韌體進行主要 (x.0) 修訂 | 單一 LUN |
為叢集提供新的磁碟或 LUN | 完整,但只測試新的 LUN |
SAN (交換器/集線器) 變更
變更 | 需要的驗證測試 |
---|---|
新增或取代光纖通道交換器或集線器 | 完整 |
變更 switch 區塊內的連接埠數目 | 無 |
對光纖通道交換器韌體做小幅度的 (0.x) 修改 | 單一 LUN |
對光纖通道交換器韌體做大範圍的 (X.0) 修改 | 單一 LUN |
變更交換器設定或分區設定 | 完整,但只測試變更的 LUN |
主機匯流排介面卡 (HBA) 變更
變更 | 需要的驗證測試 |
---|---|
取代 HBA (相同或不同類型) | 完整 |
新增 HBA (相同或不同類型) | 單一 LUN |
變更 HBA 韌體或 BIOS | 單一 LUN |
變更 HBA 驅動程式版本 | 單一 LUN |
多重路徑軟體變更
變更 | 需要的驗證測試 |
---|---|
從單一路徑變更為多重路徑,或從多重路徑變更為單一路徑 | 完整 |
新增路徑 | 單一 LUN |
移除路徑 | 單一 LUN |
更新裝置特定模組 (DSM) 版本 | 單一 LUN |
變更為不同類型的 DSM,例如,不同提供者的 DSM | 單一 LUN |
多站台叢集變更
變更 | 需要的驗證測試 |
---|---|
修改連接節點的網路 | 省略存放裝置測試 |
在資料複寫軟體中做小幅度的 (0.x) 版本變更 | 單一 LUN |
在資料複寫軟體中做大範圍的 (X.0) 版本變更,或變更為不同類型的複寫軟體 | 完整 |
網路變更
變更 | 需要的驗證測試 |
---|---|
修改網路韌體、軟體或硬體 | 省略存放裝置測試 |
包括存放裝置測試
當您在設定的叢集上執行叢集驗證測試時,您可能不會每次都執行所有的存放裝置測試。 本節說明當您包含或排除記憶體測試時要考慮的事項。
包括存放裝置測試時的考量
驗證設定精靈預設會執行所有的存放裝置測試。 選擇精靈的 [測試選項] 頁面上的 [僅執行我選取的測試] 選項,即可取消選取所有或部分的存放裝置測試。 包括存放裝置測試時,精靈的 [檢閱存放裝置狀態] 頁面會顯示叢集中的所有磁碟與儲存集區,並可讓您選取要包含在存放裝置測試中的磁碟與儲存集區。 要執行存放裝置測試,必須先將指派給叢集角色或叢集共用磁碟區的磁碟或儲存集區離線。 因此,使用記憶體的任何專案在記憶體測試期間都無法存取它。 建議您在記憶體驗證測試中包含記憶體之前,先離線使用磁碟或存放集區的任何叢集角色或其他進程。
Test-Cluster Windows PowerShell Cmdlet 預設會執行所有記憶體測試。 您可以指定要 -Include
只執行記憶體測試或特定記憶體測試的參數。 您可以使用 -Disk
和 -Pool
參數來啟用目標記憶體驗證。 參數 -Disk
或 -Pool
參數可分別允許在記憶體驗證測試中包含一或多個磁碟或存放集區。 -Disk
如果使用 參數或 -Pool
參數來指定目前在在線且指派給叢集角色或叢集共用磁碟區的磁碟或存放集區,您也必須指定 -Force
參數來驗證對應的磁碟或存放集區;否則,您必須在執行測試之前,確定叢集磁碟或存放集區已脫機。 -Disk
如果未指定 參數或 -Pool
參數,Test-Cluster
請在可供叢集使用或處於離線或失敗狀態的所有磁碟和存放集區上執行記憶體測試。 建議您在驗證測試中包含記憶體之前,先離線使用磁碟或存放集區的任何叢集角色或其他進程。
未直接連線到叢集中所有節點的記憶體
在某些情況下,叢集設計可能包含未連線到叢集中所有節點的記憶體。 多站台叢集便是一個常見範例,其中 SiteA 中的叢集節點連線至一組存放裝置, SiteB 中的節點連線至另一組存放裝置,並且使用非 Microsoft 的複寫解決方案來確保兩組存放裝置的資料相同。 故障轉移叢集會偵測到此非對稱記憶體組態,因此 SiteA 中的磁碟只會使用 SiteA 節點進行驗證,而 SiteB 中的磁碟只會使用 SiteB 中的節點進行驗證。
Microsoft客戶支援可能會要求您在生產叢集上執行驗證測試的一個案例,就是發生叢集記憶體失敗,可能是因為某些基礎記憶體組態變更或問題所造成。 不建議讓磁碟脫機,因為磁碟的可用性會影響使用該磁碟的叢集角色。 在此情況下,您可以從同一個共用存放裝置建立或選擇新的 LUN 並提供給叢集的所有節點,以執行驗證測試 (包括存放裝置測試)。 藉由測試此 LUN,您可以避免中斷叢集內已上線的叢集角色,但仍測試基礎記憶體子系統。
如果故障轉移叢集通過完整的驗證測試集,而且未來沒有任何硬體或軟體變更,它將繼續是支持的設定。 不過,當您對驅動程式和韌體等軟體元件執行例行更新時,可能需要重新執行設定精靈,以確保支援故障轉移叢集的目前設定。 下列指導方針可協助您判斷這麼做的時機:
儲存堆疊的所有元件在叢集的所有節點之間必須相同。 多重路徑 I/O (MPIO) 軟體和裝置特定模組 (DSM) 軟體元件必須相同。 建議連結到叢集存放裝置的大型存放裝置控制器 (也就是主機匯流排介面卡 (HBA)、HBA 驅動程式及 HBA 韌體) 必須相同。 如果您使用不同的 HBA,您應該向記憶體廠商確認您遵循其支援或建議的設定。
最佳做法是讓小型 LUN 可供使用,讓驗證設定精靈在可用的記憶體上執行測試,而不會對叢集角色造成負面影響。 如果 Microsoft 客戶支援要求您執行完整的叢集驗證測試,精靈可讓您選取用於測試存放裝置的磁碟,以確認存放裝置是否正常運作。
未包含記憶體測試時的考慮
系統組態測試、清查測試及網路測試的額外負荷很低,而且可以在叢集中的伺服器上執行,而不會對伺服器造成重大影響。
Microsoft 客戶支援可能會要求您以正常的疑難排解程序來驗證實際執行叢集,而非只針對存放裝置。 在此案例中,使用精靈來清查硬體和軟體、執行網路測試,以及驗證系統設定。 某些案例可能只需要完整測試的子集。 例如,如果您要針對生產叢集的網路問題進行疑難解答,Microsoft客戶支援可能會要求您只執行硬體和軟體清查和網路測試。
常見問題集
容錯移轉叢集解決方案是否將列於 Windows Server Catalog 中?
否,Microsoft不會維護故障轉移叢集的廠商解決方案清單。 不過,許多廠商會在他們的網站上提供建議的容錯移轉叢集解決方案與元件。
Microsoft 客戶支援如何確認解決方案是否經過驗證?
驗證設定精靈會產生一份簡單的 HTML 報告,這份報告會詳細記載某個解決方案是否通過所有測試。 這份報告是透過標準的診斷工具 MSDT 所收集。
如果我變更叢集組態,例如新增節點,該怎麼辦? 我是否需要重新執行驗證設定精靈?
是,每當對現有故障轉移叢集進行變更時,應該執行驗證設定精靈。 如需詳細資訊,請參閱本指南中稍早的 常見的驗證案例 。