針對 VMware VM 和實體伺服器的複寫問題進行疑難排解
本文描述使用 Site Recovery 將內部部署 VMware VM 和實體伺服器複寫至 Azure 時,可能會遇到的一些常見問題和特定錯誤。
步驟 1:監視處理序伺服器健康狀態
Site Recovery 會使用處理伺服器來接收及最佳化複寫的資料,並將其傳送至 Azure。
我們建議在入口網站中監視處理伺服器的健康情況,以確保這些伺服器已連線且運作正常,以及與處理伺服器相關聯的來源機器正在進行複寫。
步驟 2. 針對連線能力和複寫問題進行疑難排解
來源伺服器與處理序伺服器之間的連線問題,或處理序伺服器與 Azure 之間的連線能力問題通常會導致初始和進行中複寫失敗。
若要解決這些問題,請針對連線能力和複寫進行疑難排解。
步驟 3:針對不適用於複寫的來源機器進行疑難排解
當您使用 Site Recovery 來嘗試選取來源機器以啟用複寫時,該機器可能會因下列其中一個原因而無法供您使用:
- 兩部具有相同執行個體 UUID 的虛擬機器:如果 vCenter 底下的兩部虛擬機器具有相同的執行個體 UUID,則 Azure 入口網站中會顯示組態伺服器所探索到的第一部虛擬機器。 若要解決此問題,請確定沒有任何兩部虛擬機器具有相同的執行個體 UUID。 在備份 VM 變成作用中並已登入探索記錄的執行個體中,此案例很常見。 請參閱 Azure Site Recovery VMware 至 Azure:如何清除重複或過時項目來解決問題。
- 不正確的 vCenter 使用者認證:確定您在使用 OVF 範本或統一安裝來設定組態伺服器時,已新增正確的 vCenter 認證。 若要確認您在設定期間所新增的認證,請參閱修改自動探索所需的認證。
- vCenter 權限不足:如果所提供來存取 vCenter 的權限沒有所需的權限,可能會導致探索虛擬機器失敗。 請確定將準備帳戶以進行自動探索中所述的權限新增至 vCenter 使用者帳戶。
- Azure Site Recovery 管理伺服器:如果虛擬機器作為一或多個下列角色 - 管理伺服器的組態伺服器/向外延展處理序伺服器/主要目標伺服器,則您無法從入口網站中選擇虛擬機器。 無法複寫管理伺服器。
- 已透過 Azure Site Recovery 服務保護/容錯移轉:如果虛擬機器已經透過 Site Recovery 保護或容錯移轉,則在入口網站中便無法選取該虛擬機器來進行保護。 請確定您在入口網站中尋找的虛擬機器,尚未受到任何其他使用者或不同訂用帳戶的保護。
- vCenter 未連線:請檢查 vCenter 是否處於連線狀態。 若要確認,請移至 [復原服務保存庫] > [Site Recovery 基礎結構] > [組態伺服器] > 按一下個別的組態伺服器 > 刀鋒視窗隨即在右邊開啟,內含相關聯的伺服器詳細資料。 檢查 vCenter 是否已連線。 如果其處於「未連線」狀態,請解決此問題,然後在入口網站上重新整理組態伺服器。 在此之後,虛擬機器不會列示在入口網站上。
- ESXi 已關閉電源:如果虛擬機器所在的 ESXi 主機處於已關閉電源狀態,則虛擬機器不會列示在 Azure 入口網站上,也無法在其上加以選取。 開啟 ESXi 主機電源,然後在入口網站上重新整理組態伺服器。 在此之後,虛擬機器不會列示在入口網站上。
- 擱置重新開機:如果虛擬機器上有擱置的重新開機,您就無法在 Azure 入口網站上選取此機器。 務必完成擱置的重新開機活動,然後重新整理組態伺服器。 在此之後,虛擬機器不會列示在入口網站上。
- 找不到 IP 或機器沒有 IP 位址:如果虛擬機器沒有與其相關聯的有效 IP 位址,您就無法在 Azure 入口網站上選取此機器。 務必將有效的 IP 位址指派給虛擬機器,然後重新整理組態伺服器。 如果機器沒有與其 NIC 相關聯的有效 IP 位址,也可能會造成此問題。 將有效的 IP 位址指派給所有 NIC,或移除遺漏 IP 的 NIC。 在此之後,虛擬機器會列示在入口網站上。
針對在入口網站中顯示為灰色的受保護虛擬機器進行疑難排解
如果系統中有重複項目,在 Azure 入口網站中便無法使用在 Site Recovery 底下複寫的虛擬機器。 深入瞭解如何刪除過時項目並解決問題。
另一個原因可能是機器已複製。 當機器在 Hypervisor 之間移動時,以及如果 BIOS 識別碼變更,行動代理程式會封鎖複寫。 Site Recovery不支援複寫已複製的機器。
在過去 'XXX' 分鐘沒有可供 VM 使用的損毀一致復原點
以下是一些最常見的問題清單:
初始複寫問題 [錯誤 78169]
在確定沒有連線、頻寬或時間同步相關問題的基礎上,請確保:
- 沒有防毒軟體正在封鎖 Azure Site Recovery。 深入了解 Azure Site Recovery 所需的資料夾排除。
具有高變換率的來源機器 [錯誤 78188]
可能的原因:
- 虛擬機器所列出磁碟上資料變更率 (寫入位元組/秒) 超過複寫目標儲存體帳戶類型的 Azure Site Recovery 支援限制。
- 變換率突然暴增,原因是有大量資料等待上傳。
若要解決這個問題:
確定目標儲存體帳戶類型 (標準或進階) 是根據來源的變換率需求來佈建。
如果您已複寫到進階受控磁碟 (asrseeddisk 類型),請確定磁碟大小根據 Site Recovery 限制支援觀察到的變換率。 如有需要,您可以增加 asrseeddisk 的大小。 執行下列步驟:
- 巡覽至受影響複寫機器的 [磁碟] 刀鋒視窗,並複製複本磁碟名稱
- 巡覽至此複本受控磁碟
- 您可能會在 [概觀] 刀鋒視窗上看到一個橫幅,其指出已產生 SAS URL。 請按一下此橫幅並取消匯出。 如果看不到橫幅,則請忽略此步驟。
- 一旦撤銷 SAS URL,請移至受控磁碟的 [設定] 刀鋒視窗並增加大小,讓 Azure Site Recovery 支援來源磁碟上觀察到的變換率。
如果觀察到的變換為暫時性,請等候幾個小時讓擱置中的資料上傳,以趕上進度並建立復原點。
如果磁碟包含非關鍵性資料,例如暫存記錄、測試資料等,請考慮將此資料移至別處,或從複寫中完全排除此磁碟
如果問題持續發生,請使用 Site Recovery 部署規劃工具來協助規劃複寫。
來源機器沒有任何活動訊號 [錯誤 78174]
當來源機器上的 Azure Site Recovery 行動代理程式未與組態伺服器 (CS) 通訊時,就會發生這種情況。
若要解決此問題,請使用下列步驟來確認從來源 VM 到設定伺服器的網路連線能力:
確認來源機器正在執行。
使用具有系統管理員權限的帳戶來登入來源機器。
確認下列服務正在執行,如果沒有,請重新啟動這些服務:
- Svagents (InMage Scout VX 代理程式)
- InMage Scout 應用程式服務
在來源機器上,檢查此位置上的記錄,以取得錯誤詳細資料:
C:\Program Files (X86)\Microsoft Azure Site Recovery\agent\svagents*.log
處理伺服器沒有任何活動訊號 [錯誤 806]
如果沒有任何活動訊號來自處理序伺服器,請檢查:
處理序伺服器 VM 是否已啟動且執行中
請在處理序伺服器上查看下列記錄,以取得錯誤詳細資料:
C:\ProgramData\ASR\home\svsystems\eventmanager*.log
及
C:\ProgramData\ASR\home\svsystems\monitor_protection*.log
主要目標伺服器沒有任何活動訊號 [錯誤 78022]
當主要目標伺服器上的 Azure Site Recovery 行動代理程式未與組態伺服器通訊時,就會發生這種情況。
若要解決此問題,請使用下列步驟來確認服務狀態:
確認主要目標 VM 已啟動且正在執行。
使用具有系統管理員權限的帳戶來登入主要目標 VM。
確認 svagents 服務正在執行。 如果正在執行,請重新啟動該服務
檢查此位置上的記錄,以取得錯誤詳細資料:
C:\Program Files (X86)\Microsoft Azure Site Recovery\agent\svagents*.log
若要向設定伺服器註冊主要目標,請瀏覽至 %PROGRAMDATA%\ASR\Agent 資料夾,然後在命令提示字元上執行下列命令:
cmd cdpcli.exe --registermt net stop obengine net start obengine exit
無法成功為虛擬機器啟用保護 [錯誤 78253]
如果複寫策略未正確地與組態伺服器相關聯,就可能發生此錯誤。 如果與組態伺服器相關聯的原則無效,也可能會發生此錯誤。
若要確認此錯誤的原因,請瀏覽至復原保存庫 > 管理 [Site Recovery 基礎結構],然後檢視 VMware 和實體機器的復寫策略,以檢查所設定原則的狀態。
若要解決此問題,您可以將原則與使用中的組態伺服器建立關聯,或建立新的複寫策略並使其產生關聯。 如果原則無效,您可以解除關聯並將其刪除。
錯誤識別碼 78144 - 在過去 'XXX' 分鐘沒有可供 VM 使用的應用程式一致復原點
行動代理程式 9.23 和 9.27 版中新增了一些增強功能,可處理 VSS 安裝失敗行為。 請確定您是使用最新版本,才能取得針對 VSS 失敗進行疑難排解的最佳指引。
下面所列的是其中一些最常見的問題:
原因 1:SQL Server 2008/2008 R2 中的已知問題
修正方式:SQL Server 2008/2008 R2 有一個已知問題。 請參閱這篇知識庫文章:在裝載 SQL Server 2008 R2 的伺服器中 Azure Site Recovery Agent 代理程式或其他非元件 VSS 的備份失敗
原因 2:在裝載任何 SQL Server 執行個體 (具有 AUTO_CLOSE 資料庫) 版本的伺服器上,Azure Site Recovery 作業失敗
修正方式:請參閱 KB 文章
修正方式:請參閱 KB 文章
原因 3:SQL Server 2016 和 2017 中的已知問題
修正方式:請參閱 KB 文章
原因 4:Linux 伺服器上未啟用應用程式一致性
修正方式:適用於 Linux 作業系統的 Azure Site Recovery 支援使用應用程式自訂指令碼來達成應用程式一致性。 Azure Site Recovery 行動代理程式會使用具有前置和後置選項的自訂指令碼來達成應用程式一致性。 這裡是加以啟用的步驟。
造成 VSS 相關問題的其他原因:
若要進一步進行疑難排解,請檢查來源機器上的檔案,以取得失敗的確切錯誤碼:
C:\Program Files (x86)\Microsoft Azure Site Recovery\agent\Application Data\ApplicationPolicyLogs\vacp.log
如何找出檔案中的錯誤? 透過在編輯器中開啟 vacp.log 檔案來搜尋字串 "vacpError"
Ex:
vacpError
:220#Following disks are in FilteringStopped state [\\.\PHYSICALDRIVE1=5, ]#220|^|224#FAILED: CheckWriterStatus().#2147754994|^|226#FAILED to revoke tags.FAILED: CheckWriterStatus().#2147754994|^|
在上述範例中,2147754994 為錯誤碼,用來告知您發生了如下的失敗:
未安裝 VSS 寫入器 - 錯誤 2147221164
修正方式:為了產生應用程式一致性標籤,Azure Site Recovery 會使用 Microsoft 磁碟區陰影複製服務 (VSS)。 這會為其作業安裝 VSS 提供者,以取得應用程式一致性快照集。 此 VSS 提供者會安裝為服務。 如果未安裝 VSS 提供者服務,則應用程式一致性快照集建立作業會失敗,並出現錯誤識別碼 0x80040154:「類別未登錄」。
請參閱 VSS 寫入器安裝疑難排解的文章
已停用 VSS 寫入器 - 錯誤 2147943458
修正方式:為了產生應用程式一致性標籤,Azure Site Recovery 會使用 Microsoft 磁碟區陰影複製服務 (VSS)。 這會為其作業安裝 VSS 提供者,以取得應用程式一致性快照集。 此 VSS 提供者會安裝為服務。 如果已停用 VSS 提供者服務,則應用程式一致性快照集建立作業會失敗,並出現錯誤識別碼「指定的服務已停用,因此無法啟動 (0x80070422)」。
- 如果已停用 VSS,
- 請確認 VSS 提供者服務的啟動類型設定為 [自動]。
- 請重新啟動下列服務:
- VSS 服務
- Azure Site Recovery VSS 提供者
- VDS 服務
VSS 提供者未登錄 - 錯誤 2147754756
修正方式:為了產生應用程式一致性標籤,Azure Site Recovery 會使用 Microsoft 磁碟區陰影複製服務 (VSS)。
檢查是否已安裝 Azure Site Recovery VSS 提供者服務。
- 使用下列命令重試提供者安裝:
- 解除安裝現有的提供者:C:\Program Files (x86)\Microsoft Azure Site Recovery\agent\InMageVSSProvider_Uninstall.cmd
- 重新安裝:C:\Program Files (x86)\Microsoft Azure Site Recovery\agent\InMageVSSProvider_Install.cmd
請確認 VSS 提供者服務的啟動類型設定為 [自動]。 - 重新啟動下列服務:- VSS 服務 - Azure Site Recovery VSS 提供者 - VDS 服務
錯誤識別碼 95001 - 權限不足
嘗試啟用複寫時,若應用程式資料夾沒有足夠的權限,就會發生此錯誤。
修正方式:若要解決此問題,請確定 IUSR 使用者具有下列所有資料夾的擁有者角色 -
- C\ProgramData\Microsoft Azure Site Recovery\private
- 安裝目錄。 例如,如果安裝目錄是 F 磁碟機,請將正確的權限提供給:
- F:\Program Files (x86)\Microsoft Azure Site Recovery\home\svsystems
- 安裝目錄中的 \pushinstallsvc 資料夾。 例如,如果安裝目錄是 F 磁碟機,請將正確的權限提供給 -
- F:\Program Files (x86)\Microsoft Azure Site Recovery\home\svsystems\pushinstallsvc
- 安裝目錄中的 \etc 資料夾。 例如,如果安裝目錄是 F 磁碟機,請將正確的權限提供給 -
- F:\Program Files (x86)\Microsoft Azure Site Recovery\home\svsystems\etc
- C:\Temp
- C:\thirdparty\php5nts
- 下列路徑底下的所有項目 -
- C:\thirdparty\rrdtool-1.2.15-win32-perl58\rrdtool\Release*
針對複寫伺服器上的時間變更進行疑難排解和處理
當來源機器的時間往前移,然後在短時間內移回以修正變更時,就會發生此錯誤。 您可能不會注意到變更,因為時間會快速修正。
修正方式:若要解決此問題,請等到系統時間跨越誤差的未來時間。 另一個選項是再次停用並啟用複寫,這僅適用於向前複寫 (資料從內部部署複寫至 Azure),而不適用於反轉複寫 (資料從 Azure 複寫至內部部署)。
下一步
如果需要更多協助,請將問題貼到 Azure Site Recovery 的 Microsoft 問與答頁面。 我們有一個使用中的社群,我們的其中一位工程師將可協助您。