瞭解診斷測試
Microsoft HPC Pack 提供一組常用的診斷測試。 您可以使用這些測試來協助驗證部署、疑難解答失敗,以及偵測效能降低。 本主題描述當您安裝 HPC Pack 時,預設包含 系統 測試。 如需適用於 Excel 測試、新可用的測試及建立自訂診斷
系統 診斷測試的概念上會依套件分組。 本主題中的下列各節描述每個套件中的測試,如果適用,測試的可設定參數:
部署環境驗證程式 (HPC Pack 2008 R2 Service Pack 1 中新增的測試)
Windows Azure (HPC Pack 2008 R2 中新增 Service Pack 2 的套件)
部署環境驗證程式
此套件中的測試可協助您找出可能會影響裸機節點部署的常見問題。 如需詳細資訊,請參閱在部署節點之前 驗證您的環境。
注意
針對設定為故障轉移叢集的前端節點,部署環境驗證程式只會測試作用中的前端節點。 如需其他檢查,您可能想要故障轉移並在另一個前端節點上執行測試。 一般而言,故障轉移叢集中的前端節點具有類似的組態,而且兩個前端節點之間的不同問題並不常見,但在復原后執行測試可能很好(在嚴重失敗后於新復原/還原的前端節點上)。
診斷 | 描述 |
---|---|
部署:DHCP 測試 | 驗證所有網路的 DHCP 伺服器可用性。 |
部署:DNS 測試 | 驗證所有網路的 DNS 伺服器可用性,並報告 DNS 伺服器 IP 位址。 |
部署:認證測試 | 確認安裝認證是否為有效的 HPC 使用者。 如需詳細資訊,請參閱 提供安裝認證。 |
部署:Active Directory 連線能力測試 | 確認與域控制器的連線,並報告回應時間。 |
部署:IPsec 測試 | 檢查企業網路上是否已啟用因特網通訊協定安全性 (IPsec)。 如果透過組策略在您的網域上強制執行 IPsec,您可能會在部署期間遇到問題。 例如,IPsec 可以封鎖埠,禁止計算節點與前端節點通訊。 |
部署:Windows 部署服務測試 | 確認 Windows 部署傳輸服務已開啟,且未安裝部署伺服器。 Windows 部署服務可讓遠端 Windows 安裝到啟用 PXE 的電腦。 HPC Pack 只會使用 Windows 部署服務角色中的傳輸伺服器角色服務。 部署伺服器角色服務不需要安裝。 |
部署:Windows 映像和安裝共用測試 | 確認每個節點範本中的安裝映像和用於部署的 Windows 預安裝環境 (Windows PE) 映射並未遺失、損毀或被另一個進程鎖定,而且 Windows PE 映像的大小不會超過 300 MB。 確認用於安裝的共享資料夾存在,且具有正確的許可權。 請參閱 瞭解節點樣本。 Windows PE 可用來準備計算機以進行 Windows 安裝、從網路檔案伺服器複製磁碟映射、起始 Windows 安裝程式,以及擷取節點的映射。 |
部署:NAT 測試 | 確認前端節點上已正確設定網路位址轉換 (NAT),讓計算節點可以在某些拓撲中與企業網路通訊。 |
部署:防火牆測試 |
HPC Pack 2008 R2 Service Pack 1 中新增的測試。 確認私人和應用程式叢集網路中網路適配器的防火牆已關閉(也就是說,這些網路適配器已從 Windows 防火牆排除)。 它也會驗證前端節點上的必要輸入和輸出防火牆規則是否已正確設定。 如需詳細資訊,請參閱 HPC 叢集網路中的 Windows 防火牆組態一節。 |
部署:埠開啟測試 |
Service Pack 1 的 HPC Pack 2008 R2 中新增的測試。 確認 Windows 防火牆中已開啟下列 TCP 連接埠: - 1856 - 6729 - 6730 - 9094 - 9095 - 9096 - 9794 - 9892 - 9893 - 9894 如需 HPC Pack 針對前端節點上叢集服務與叢集中其他節點之間通訊所需的埠相關信息,請參閱 HPC 叢集網路中的 Windows 防火牆組態一節。 |
部署:系結順序測試 |
Service Pack 1 的 HPC Pack 2008 R2 中新增的測試。 確認企業網路已設定為預設網路閘道上系結順序中的第一個。 如果在企業網路之前列出專用網,這可能會導致與企業網路上的 Active Directory 域控制器通訊時發生問題。 |
部署:HA 虛擬網路資源測試 |
Service Pack 1 的 HPC Pack 2008 R2 中新增的測試。 如果前端節點在故障轉移叢集中設定為高可用性,請確認已正確設定故障轉移叢集的虛擬網路資源。 在故障轉移叢集中設定前端節點之後,因為故障轉移叢集未系結至單一實體伺服器,因此不能有實體伺服器的名稱和IP位址。 故障轉移叢集必須具有虛擬前端節點名稱和對應的虛擬IP位址,與故障轉移叢集中兩個前端節點的實體名稱和IP位址不同。 這可讓企業和專用網路上的通訊連絡虛擬名稱和IP位址在任何指定時間作用中的前端節點,確保當主動前端節點失敗且功能切換至被動前端節點時,通訊不會中斷。 如需詳細資訊,請參閱 設定前端節點高可用性Microsoft HPC Pack。 |
MPI 效能
訊息傳遞介面 (MPI) 乒乓球測試會重複在配對節點之間來回傳送數據封包,以測量叢集上節點之間的網路等待時間和輸送量。 延遲是封包在一對節點之間進行往返的一半平均時間,以微秒為單位。 輸送量是一對節點之間的數據傳輸平均速率,以 MB/秒為單位。 當您執行 MPI 乒乓球測試時,您可以指定要使用的執行模式和網路。
重要
若要取得 MPI 乒乓球測試的準確結果,請在 Serial 模式中執行測試(如果有的話),並確定節點未執行作業。 如果節點正在執行作業,測試不會傳回精確的延遲和輸送量量值。
執行模式參數具有下列值:
Ring:在通道測試中(也稱為最接近的鄰近測試),節點會一次以環形模式將封包傳送給彼此配對。 當一對節點執行測試時,所有其他節點都會保持閑置狀態。 第一個節點會與其鄰近節點配對。 當第一個配對的測試完成時,下一個節點會類似與芳鄰配對。 這個循序配對和測試會繼續進行,直到測試涵蓋 HPC 叢集中的所有節點,而且每個節點都與兩個鄰近節點配對,一個在環形周圍的每個方向。
您可以使用 Ring 模式,以最少的時間取得 HPC 叢集效能的合理指示。 通道測試所花費的時間比序列或錦標賽樣式的測試時間還短,因為每個節點只會使用兩個鄰近節點進行測試,而不是叢集中的所有節點。
序列:序列模式一次在一對節點配對上執行 MPI 乒乓球測試。 當一對節點執行測試時,所有其他節點都會保持閑置狀態。 當一對節點完成測試時,測試會針對另一組節點執行,而個別配對的測試會依序進行,直到測試所有可能的節點組為止。
您可以使用 序列 模式,在 HPC 叢集有少量節點時,徹底測試節點之間的所有個別網路連結。 此模式提供最精確的延遲或輸送量量值。 由於序列測試會針對所有可能的節點一對一次執行 MPI 乒乓球測試,因此測試可能需要很長的時間才能進行大量的節點。
錦標賽:錦標賽模式在多個回合中執行 MPI 乒乓球測試,類似於比賽。 在每個回合中,HPC 叢集配對中的所有節點都會關閉。 每個配對中的兩個節點會彼此傳送封包,且所有配對會平行交換封包。 當一個回合完成時,另一個回合會開始,使用一組不同的節點配對,而不是在先前的回合中使用。 四捨五入會繼續進行,直到所有可能的節點配對都經過測試為止。 此模式中的測試會完成最快且網路交換器負載最高。
您可以使用 錦標賽 模式來測試指定網路的基礎結構,以及在載入時如何執行。 測量的延遲和輸送量是已載入的叢集,因此可能無法與製造商的網路硬體規格進行比較。
注意
您可以使用其他自變數來執行測試,並使用 mpipingpong 命令來取得其他輸出。
診斷 | 描述 |
---|---|
MPI 乒乓球: 延遲 | 此測試會測量節點對節點通訊的頻寬和延遲。 因為這是效能測試,為了取得精確的結果,請在離線且未執行其他作業的節點上執行此測試。 參數: 您可以指定要用於測試和執行模式的網路。 根據預設,此測試會以 錦標賽 模式執行。 當您使用 錦標賽 模式來測量延遲時,測試會將小雜訊引入每個回合的同步延遲測量,因為封包很小,因此即使是大量過度訂閱的網路交換器也不會妨礙封包。 若要取得更精確的延遲測量,如有必要,請使用 Serial 模式,以序列方式測試所有配對。 |
MPI 乒乓球:輸送量 | 測量叢集上相鄰節點之間的網路輸送量。 參數: 您可以指定要用於測試和執行模式的網路(序列 或 錦標賽)。 根據預設,此測試會以 序列 模式執行。 |
MPI 乒乓球:簡單輸送量 | 測量叢集上相鄰節點之間的網路輸送量。 參數: 您可以指定要用於測試的網路。 使用 Ring 模式,只測量叢集中相鄰節點配對之間的輸送量。 這會提供跨指定網路連線的合理驗證。 如需更精確的輸送量測量,請執行 MPI Ping Pong:輸送量 測試。 |
網路狀態
此套件中的測試可協助您驗證叢集網路的設定。 您無法針對這些測試設定任何參數。
診斷 | 描述 |
---|---|
防火牆設定報告 | 報告所選節點的防火牆狀態(已啟用或停用)。 此測試也會報告允許透過防火牆存取的應用程式或服務(防火牆例外狀況),包括所使用的埠號碼。 另請參閱 瞭解 HPC Networks 的防火牆設定。 |
網路設定報告 | 報告每個所選節點的網路適配器組態。 |
網路疑難解答
此套件中的測試可協助您驗證叢集節點的網路連線能力。
診斷 | 描述 |
---|---|
DNS 測試 | 驗證所選節點之間的功能變數名稱系統 (DNS) 名稱解析。 |
網域連線測試 | 驗證所選節點與每個域控制器之間的連線。 |
Ping 測試 | 執行每個節點與所選群組中所有其他節點之間的 Ping 測試,以驗證所選節點之間的網路連線。 參數: 您可以指定要用於測試的網路,以及每個節點的 ping 數目。 |
注意
HPC Pack 工具套件包含網路疑難解答報告,這是一項額外的診斷測試,可收集和分析 HPC Pack 型叢集中的網路資訊,以協助針對網路問題進行疑難解答。 如果您有 InfiniBand 網路,報表也會包含該網路中主機通道配接器 (HCA) 卡片的狀態和功能。 如需詳細資訊,請參閱 安裝和使用網路疑難解答報告診斷測試。
服務業
此套件中的測試和報告可協助您確認所需的 HPC 服務正在選取的節點上執行,並針對服務錯誤進行疑難解答。
診斷 | 描述 |
---|---|
服務組態報告 | 報告安裝在所選節點上的所有執行中服務及其啟動組態設定。 |
服務狀態報告 | 報告所選節點之事件記錄檔中的 HPC 事件。 參數: 您可以指定 小時計數,以指出檢查事件記錄檔的距離(介於 1 到 50 小時前)。 您也可以設定 Log count 參數 (1-100) 來限制要報告的事件數目。 |
執行測試的服務 | 確認 HPC 服務正在選取的節點上執行。 預期的服務取決於目標節點的角色(前端節點、計算節點或 WCF 訊息代理程序節點)。 如果選擇性服務存在,此測試可能會報告選擇性服務的狀態,但只會根據必要的服務進行驗證。 |
SOA
SOA 服務載入測試 會驗證指定的服務 DLL 是否可以載入指定的節點上,而且節點上存在 DLL 的任何偵測到的相依性。 根據預設,此測試會使用內建 CcpEchoSvc 服務來驗證叢集上的 SOA 功能。
若要確認可以載入特定服務,您可以在測試參數中指定服務的名稱。 當您執行
系統設定
此套件中的報告提供所選節點上應用程式設定和軟體更新的相關信息。
診斷 | 描述 |
---|---|
使用中電源配置報告 | 在 HPC Pack 2012 中新增 測試。 報告使用中電源配置(方案),並列出所選節點上操作系統中設定的所有現有電源配置。 |
應用程式組態報告 | 報告應用程式,包括安裝在所選節點上的版本號碼。 結果包含列出所有已安裝應用程式的數據表,以及已安裝該應用程式的節點計數。 您也可以依節點檢視結果。 |
節點報告的可用軟體更新 | 報告所選節點可用的軟體更新。 Windows Server Update Services (WSUS) 或 Microsoft Update 所識別為重大更新的測試報告。 診斷會與 Microsoft Update 用戶端通訊,它會篩選更新,讓只有與節點相關的更新才會回報給診斷。 如果未在計算節點上設定 winHTTP Proxy,此測試就會失敗。 執行 netsh winhttp show proxy 命令,以判斷節點是否已設定 Proxy 伺服器。如需使用企業 WSUS 伺服器或使用節點範本套用更新的詳細資訊,請參閱 更新節點逐步指南中的最佳做法主題,。 |
HPC 軟卡 KSP 測試 |
Service Pack 2 的 HPC Pack 2008 R2 中新增的測試。 報告 HPC 軟卡金鑰儲存提供者 (KSP) 是否已安裝在選取的叢集節點上。 此設定會在節點上執行工作時啟用軟卡驗證。 KSP 是個別的安裝,只會安裝在前端節點和計算節點上。 它不需要安裝在用戶端節點上。 KSP 元件是用來針對計算節點上執行的工作執行智慧卡登入。 KSP 只會用於執行工作的機器上。 如果測試失敗:此計算機上未安裝 HPC 軟卡 KSP。如需安裝以啟用軟卡驗證的相關信息,請參閱Microsoft HPC Pack 版本資訊。 如果測試通過:此計算機上安裝 HPC 軟卡 KSP。 |
範本報表中遺漏/必要的軟體更新 | 比較安裝在所選節點上的軟體更新與節點範本中 套用更新 工作中指定的更新。 報告指出是否有任何計算節點無法符合所需的更新層級(無、重大、全部),或遺失節點範本中所定義的特定更新。 如果此診斷報告遺漏必要的更新,請讓指示的節點脫機並執行 維護 動作。 請參閱 節點上執行維護工作。 節點範本必須包含 套用更新 工作,才能執行此測試。 如果節點範本不包含此工作,您可以執行 節點報表的可用軟體更新 以查看可用更新清單,或將工作新增至節點範本。 如需將更新工作新增至節點範本的詳細資訊,請參閱 將更新工作新增至節點範本。 |
節點上安裝的軟體更新報告 | 報告安裝在所選節點上的更新。 |
Windows Azure
套件已在 HPC Pack 2008 R2 中新增 Service Pack 2。
此套件中的測試可協助您確認您可以在叢集中的 Windows Azure 節點上部署和執行作業。
診斷 | 描述 |
---|---|
Windows Azure 防火牆埠測試 | 執行簡單的測試,以透過任何現有的內部和外部防火牆,驗證從前端節點到 Windows Azure 的通訊。 此測試一律會使用預設診斷測試認證來執行。 您可以先執行此測試,再部署 Windows Azure 節點,以協助確保任何現有的防火牆都已設定為允許前端節點與 Windows Azure 之間的部署、排程器和訊息代理程序通訊。 此測試會檢查從前端節點到 Windows Azure 中 hpcazureportcheck.cloudapp.net 服務所選 TCP 連接埠的輸出通訊。 hpcazureportcheck.cloudapp.net 服務是由 Microsoft 裝載,以提供此測試的通訊端點。 重要事項: hpcazureportcheck.cloudapp.net 與您用於 Windows Azure 節點部署的任何 Windows Azure 託管服務無關。 您不需要部署叢集中的 Windows Azure 節點,因為它只會由 Windows Azure 防火牆埠測試使用。 測試檢查的防火牆埠是安裝在前端節點上的 HPC Pack 版本所需的埠(從 HPC Pack 2008 R2 SP2 開始)。 如果您已安裝 HPC Pack 2008 R2 與 SP2,則會測試下列 TCP 連接埠上的通訊: - 80 - 443 - 3389 - 5901 - 5902 - 7998 - 7999 如果您已安裝至少使用 SP3 的 HPC Pack 2008 R2,預設會測試下列 TCP 連接埠上的通訊: - 443 - 3389 重要事項:
如需 Windows Azure 防火牆埠的詳細資訊,請參閱 Microsoft HPC Pack中的 Windows Azure 節點 |
Windows Azure MPI 通訊測試 | 在兩個 Windows Azure 節點之間執行簡單的乒乓球測試,以確保 MPI 通訊正常運作。 此測試只會在 Windows Azure 節點上,以及在相同部署中的節點上執行。 |
Windows Azure 報告 | 報告已部署之 Windows Azure 節點的角色實例名稱。
重要事項: 安裝 HPC Pack 2008 R2 SP3 之後,此測試不再提供 Windows Azure 節點的角色實例名稱。 若要解決此問題,您可以在想要查看名稱的每個節點上執行下列命令:Set COMPUTERNAME 您也可以使用 clusrun 命令,或建立新的診斷測試,在節點群組上執行此命令。 |
Windows Azure 服務連線測試 | 使用 Windows Azure 節點範本中指定的訂用帳戶標識碼和憑證,確認在前端節點上執行的服務可以連線到 Windows Azure。 此測試一律會使用預設診斷測試認證來執行。 參數: 您可以指定要用於測試的節點範本。 根據預設,此測試會使用所有節點範本。 |
Windows Azure 虛擬網路測試 | 在 HPC Pack 2012 中新增 測試。 執行測試以確認所有 Windows Azure 節點範本中設定的 Windows Azure 虛擬網路網站是否有效。 您無法為此測試設定任何參數。 |