Azure Site Recovery 概觀

已完成

Azure Site Recovery 不僅只是個可協助您從系統中斷中復原的工具。 Azure Site Recovery 會在主要和次要站台間複寫工作負載。 Site Recovery 也可以用來將 VM 從內部部署基礎結構遷移至 Azure。

您從例如地震等來保護您工作負載的第一個工作是檢閱公司目前商務持續性和災害復原 (BCDR) 計畫。 您必須針對需要保護的系統識別出不同復原目標和範圍。

在本單元中,您會調查 Azure Site Recovery 如何能協助達成這些目標,並在發生災害時進行資料的容錯移轉和復原。

商務持續性和災害復原

服務的遺失可能會對您的員工和使用者造成干擾。 無法使用系統的每一秒都可能都會導致您公司的收入損失。 貴公司也可能因為違反您所提供服務的可用性合約,而需面臨財務懲罰。

BCDR 方案是公司所擬定的正式文件,涵蓋在災害或大規模中斷發生時所應採取的動作和範圍。 每個中斷都會以其特點進行評估。 例如,整個資料中心失去電力時,便是採取 BCDR 計畫的時機。

在此範例案例中,因發生地震使通訊線路受到損害,導致資料中心無法使用而需要修復。 這種規模的災害可能會使服務關閉數天,而非僅只是數個小時,也因此必須叫用完整的 BCDR 計畫來使服務重新上線。

作為 BCDR 計畫的一部分,您必須識別出您應用程式的復原時間目標 (RTO) 和復原點目標 (RPO)。 這兩個目標皆能協助識別您企業可以容忍沒有特定服務的時間上限,以及確認實際的資料復原流程。 讓我們更仔細研究每個項目。

An illustration showing the duration, in hours, of the recovery point objective and recovery time objective from the time of the disaster.

復原時間目標

RTO 是企業在災害發生後,直到必須還原一般服務以避免產生與持續性中斷相關之無法接受的後果前,可存留的最長時間量值。 假設您的 RTO 是 12 小時,這表示作業可以在業務的核心服務停止運作後繼續 12 個小時。 若停機時間更長,您的業務將會受到嚴重損害。

復原點目標

RPO 是在發生災害後可接受的最大資料遺失量量值。 企業通常可以決定每 24 小時、12 小時,或甚至以即時方式進行備份。 發生災害時一律會遺失部分資料。

例如,如果您的備份是每 24 小時在午夜發生,而災害是在早上 9 點發生,則這 9 小時期間的資料都會遺失。 若您公司的 RPO 是 12 小時,影響便不會太嚴重,因為期間只經過了九小時。 若 RPO 是 4 小時,此情況將會是個問題,並會對業務造成傷害。

什麼是 Azure Site Recovery?

Azure Site Recovery 可參與 BCDR 計畫,因為其可以將工作負載從主要站台複本至次要站台。 若主要站台發生問題,系統可自動叫用 Site Recovery 服務,以將受保護的虛擬機器複本至另一位置。 容錯移轉可以是從內部部署到 Azure,或是從其中一個 Azure 區域到另一個。

Azure Site Recovery 幾個值得注意的功能為:

  • [中央管理]:您可以從 Azure 入口網站設定和管理複寫,以及叫用容錯移轉和容錯回復。
  • 內部部署虛擬機器複寫:內部部署虛擬機器可以被複寫至 Azure,或是在必要的情況下複寫至次要的內部部署資料中心。
  • Azure 虛擬機器複寫:Azure 虛擬機器可以從某個區域複寫至另一個區域。
  • 容錯移轉期間的應用程式一致性:藉由使用復原點和應用程式一致的快照集,虛擬機器在複寫期間一律能持續保持一致的狀態。
  • 彈性容錯移轉:容錯移轉可以視需要執行以進行測試,或是在實際災害期間觸發。 您可以在不插斷即時服務的情況下執行測試以模擬災害復原案例。
  • 網路整合:Site Recovery 可以在複寫和災害復原案例期間管理網路管理。 保留的 IP 位址和負載平衡器也會包含在其中,讓虛擬機器可以在新的位置運作。

設定 Azure Site Recovery

Diagram showing the Azure Site Recovery architecture.

您必須設定數個元件,才能啟用 Azure Site Recovery:

  • 網路:需要有效的 Azure 虛擬網路以供複寫的虛擬機器使用。
  • 復原服務保存庫:您 Azure 訂用帳戶中的保存庫,可用來在執行容錯移轉時儲存已移轉的 VM。 該保存庫也會包含複寫原則,以及適用於複寫和容錯移轉的來源及目標位置。
  • 認證:您用於 Azure 的認證必須要有 [虛擬機器參與者] 和 [Site Recovery 參與者] 角色,以允許修改 VM 和 Site Recovery 所連線儲存體的權限。
  • 設定伺服器:內部部署 VMware 伺服器能在容錯移轉和複寫程序期間擔任數個角色。 它是從 Azure 入口網站以開啟虛擬機器 (OVA) 的形式取得,以方便進行部署。 設定伺服器包含:
    • 程序伺服器:此伺服器會作為複寫流量的閘道。 它會先快取、壓縮和加密流量,再將流量透過 WAN 傳送到 Azure。 處理序伺服器也會把行動服務安裝到所有作為容錯移轉和複寫目標的實體和虛擬機器。
    • 主要目標伺服器:此電腦會處理從 Azure 進行容錯回復期間的複寫程序。

重要

若您要從 Azure 容錯回復到內部部署環境,即使您只是要將實體機器複寫到 Azure,仍必須搭配具備設定伺服器的 VMware vCenter。 您無法容錯回復到實體伺服器。

複寫程序

Azure Site Recovery architecture.

在設定先決條件工作後,便可以開始複寫電腦。 它們根據複寫原則就地進行複本。 在第一次複製的初始階段,伺服器資料會複寫到 Azure 儲存體。 在初始複寫完成後,便會進行第二次複寫。 此時,對虛擬機器進行的變更差異會複寫到 Azure。

測試並監視容錯移轉

在您的環境針對災害復原完成設定後,請測試以確保正確設定,且一切都如您預期般運作。 您可以在隔離的 VM 上進行災害復原演練來測試設定。 最佳做法是使用隔離的網路進行測試,以避免中斷即時服務。

您嘗試復原演練時的第一個工作是在 Azure 入口網站 [受保護項目] 區段中驗證測試虛擬機器屬性。 您可以從 [已複寫項目] 窗格查看最新的復原點。 在 [計算和網路] 區段中,可視需要調整虛擬機器名稱、資源群組、目標大小、可用性設定組,以及磁碟設定。

您可以從 Azure 入口網站的 [設定]>[已複寫項目] 區段啟動復原演練。 選取目標虛擬機器,然後選取最新已處理復原點的 [測試容錯移轉] 功能表項目。 在相同的功能表中選取 Azure 網路。 若要啟動復原作業,請在網路選取畫面上選取 [確定]

復原作業及所複寫虛擬機器狀態可透過復原服務保存庫的 [概觀] 區段存取。 複寫項目的狀態可以是下列狀態:

  • 良好:複寫正常運作。
  • 警告:可能有會影響複寫的問題。
  • 危急:偵測到危急的複寫錯誤。

若一切運作順利,所複寫的 VM 狀態會設為 [已成功執行]。 若並未執行測試,則狀態會設為 [建議進行測試]。 若 VM 自上一次測試之後已經過六個月,其狀態也會設為 [建議進行測試]