虛擬機器的可靠性
本文包含具有可用性區域和跨區域災害復原和商務持續性的 VM 區域復原詳細資訊。
可用性區域支援
可用性區域是每個 Azure 區域內的數據中心實體分隔群組。 當某個區域失敗時,服務可以故障轉移至其中一個其餘區域。
如需 Azure 中可用性區域的詳細資訊,請參閱 什麼是可用性區域?。
虛擬機器支援可用性區域,每個受支援的 Azure 區域都有三個可用性區域,虛擬機器也是區域備援且分區。 如需詳細資訊,請參閱可用性區域支援。 客戶負責設定和移轉其虛擬機器以提供可用性。
若要深入瞭解可用性區域整備選項,請參閱:
- 請參閱 VM 的可用性選項
- 檢閱可用性區域服務與區域支援
- 將現有 VM 移轉到可用性區域
必要條件
您的虛擬機器 SKU 必須在您所在區域的各個區域中提供使用。 若要檢閱哪些區域支援可用性區域,請參閱支援區域清單。
您的 VM SKU 必須在您所在區域的各個區域中提供使用。 若要檢查 VM SKU 可用性,請使用下列其中一種方法:
- 使用 PowerShell 檢查 VM SKU 可用性。
- 使用 Azure CLI 檢查 VM SKU 可用性。
- 移至基礎服務。
SLA 調整
可用性區域在實體上是獨立的,提供不同的電源、網路和冷卻,因此 SLA(服務等級協定)增加。 如需相關資訊,請參閱 虛擬機器的 SLA。
建立已啟用可用性區域的資源
請先透過以下部署選項,建立啟用了可用性區域的虛擬機器(VM):
分區容錯移轉支援
您可以使用 Site Recovery 服務,將虛擬機器設定為容錯移轉到另一個區域。 如需詳細資訊,請參閱Site Recovery。
容錯
虛擬機器可以容錯移轉到叢集的另一台伺服器,VM 的作業系統會在新的伺服器上重新啟動。 您應該參閱災害復原的容錯移轉流程、收集復原規劃中的虛擬機器,以及執行災害復原演練,以確保其容錯解決方案成功。
如需詳細資訊,請參閱站台復原流程。
區域關閉體驗
在整個區域中斷期間,您應該預見效能將短暫降低,直到虛擬機器服務自我修復重新平衡了基礎容量,並重回良好區域為止。 自我修復不依賴區域復原; 預計 Microsoft 管理的服務自我修復狀態會使用其他區域的容量,補償遺失的區域。
您也應該為整個區域中斷的可能性做好準備。 如果整個區域服務中斷,將暫時無法使用本機的備援資料複本。 如果啟用了異地複寫,會將Azure 儲存體 blob 和資料表的其他三個副本儲存在不同區域中。 若發生全面性區域中斷或主要區域無法復原的災難,Azure 會將所有 DNS 項目重新對應到異地複寫區域。
區域中斷準備和復原
我們提供以下 Azure 虛擬機器指導,以因應 Azure 虛擬機器應用程式部署所在的整個區域發生服務中斷的情況:
- 為 VM 設定 Azure Site Recovery
- 如果尚未設定 Azure Site Recovery,請檢查 Azure 服務健康狀態儀表板的狀態
- 檢閱 Azure 備份服務如何在 VM 運作
- 請參閱 Azure VM 備份的支援矩陣
- 判斷哪些 VM 還原選項和情節最適合您的環境
低延遲設計
制定低延遲虛擬機器解決方案時,可以考慮跨區域(次要地區)、跨訂用帳戶(預覽版)和跨分區(預覽版)選項。 如需這些選項的詳細資訊,請參閱支援的還原方法。
重要
退出宣告區域感知部署,將放棄因隔離基礎錯誤而獲得的保護。 使用不支援可用性區域的 SKU,或退出可用性區域設定,將強制依賴不遵守區域放置和隔離的資源(包括這些資源的基礎相依性)。 您不應指望這些資源在區域關閉的情節中,還能留存下來。 有效率的調控這類資源的解決方案應定義災害復原策略,並在另一個區域中設定解決方案的復原。
安全部署技術
若選擇使用可用性區域隔離,應使用安全部署技術,為應用程式程式碼和應用程式升級。 除了設定 Azure Site Recovery 之外,也要為 VM 實作以下任一安全部署技術:
雖然 Microsoft 定期執行計劃性維護更新,但在極少數情況下,這些更新可能需要您重新啟動虛擬機器,才能將所需的更新套用到基礎結構。 如需深入瞭解,請參閱排程維護期間的可用性考量。
為另一個區域的下一組節點升級之前,應先執行以下工作:
- 請檢查 Azure 服務健康狀態儀表板,針對預期的區域瞭解其虛擬機器服務狀態。
- 請確認已為 VM 啟用複寫。
移轉至可用性區域支援
若要瞭解如何將 VM 移轉到可用性區域支援,請參閱將虛擬機器和虛擬機器擴展集移轉到可用性區域支援。
- 將 VM 移到另一個訂用帳戶或資源群組
- Azure Resource Mover
- 將 Azure VM 移到可用性區域
- 移動區域維修設定資源
跨區域災害復原和商務持續性
災害復原 (DR)是指從重大影響事件中復原,例如自然災害或不成功的部署 (導致停機和資料遺失)。 無論原因為何,解決災害的最佳辦法是定義完善且經過測試的 DR 方案,以及主動支援 DR 的應用程式設計。 開始思考建立災害復原方案之前,請參閱設計災害復原策略的建議。
Microsoft 在災害復原方面採取共同責任模型。 在共同責任模型中,Microsoft 確保基準基礎結構和平台服務可供使用。 此時,許多 Azure 服務不會自動複寫資料,或從失敗區域回復為交叉複寫到另一個已啟用的區域。 您需要為這些服務制定適合工作負載的災害復原方案。 在 Azure 平台即服務(PaaS)供應項目上執行的多數服務,都有提供支援災害復原的功能和指導,您可以使用特定服務功能快速復原,制定災害復原方案。
您可以使用跨區域還原,透過配對區域將 Azure VM 還原。 若備份是在次要地區完成,使用跨區域還原可將所有 Azure VM 還原到選取的復原點。 如需跨區域還原的詳細資訊,請參閱我們還原選項中的跨區域表格資料列項目。
多區域地理位置的災害復原
萬一整個區域服務中斷,Microsoft 將努力還原虛擬機器服務。 但您仍須靠其他應用程式專用的備份策略,達到最高可用性。 如需詳細資訊,請參閱 災害復原的資料策略一節。
中斷偵測、通知和管理
虛擬機器的硬體或實體基礎結構可能意外故障。 意外故障可能包括本機網路故障、本機磁碟故障或其他機架等級故障。 若偵測到意外故障,Azure 平台會將虛擬機器自動移轉(修復)到同一資料中心內良好的實體機器。 在修復程序期間,虛擬機器會經歷停機 (重新開機),在某些案例中會遺失暫存磁碟機。 連結的 OS 和資料磁碟一律會予以保留。
如需虛擬機器服務中斷的詳細資訊,請參閱災害復原指導。
設定災害復原和中斷偵測
若為虛擬機器設定災害復原,請了解 Azure Site Recovery 提供的功能。 請使用以下方法,為虛擬機器啟用災害復原:
- 將 Azure VM 的災害復原,設定到次要 Azure 區域
- 建立復原服務保存庫
- 為 Linux 虛擬機器啟用災害復原
- 為 Windows 虛擬機器啟用災害復原
- 將虛擬機器容錯移轉到另一個區域
- 將虛擬機器容錯移轉到主要區域
單一區域地理位置的災害復原
設定災害復原後,Azure VM 即可持續複寫到不同目標區域。 如果發生中斷狀況,您可以將 VM 容錯移轉至次要區域,並從該處加以存取。
若使用 Site Recovery 複寫 Azure VM,會以非同步方式將所有 VM 磁碟連續複寫到目標區域。 每隔幾分鐘建立一次復原點,讓您依分鐘順序完成復原點目標(RPO)。 您可以依需求執行不限次數的災害復原演練,而不會影響生產應用程式或進行中的複寫。 如需詳細資訊,請參閱對 Azure 執行災害復原演練。
如需詳細資訊,請參閱 Azure VM 結構元件和區域配對。
容量和主動式災害復原能力
Microsoft 及其客戶在共同責任模型下營運。 共同責任意即,對於客戶應支援的災害復原(客戶應負責的服務),您都必須為他們部署和控制的任何服務,解決災害復原問題。 為確保執行主動式復原,您應該每次都要預先部署次要複本,因為未預先配置的人員在受到影響時不一定有容量可用。
若要部署虛擬機,可以在虛擬機器擴展集上使用靈活的協調流程模式。 各種 VM 大小都可以使用靈活的協調流程模式。 靈活的協調流程將 VM 散布在區域或可用性區域內的容錯網域,因此也提供高可用性(最多 1000 個 VM )。