設計災害復原原則的建議

發行項
10/16/2024

適用於此 Power Platform Well-Architected 可靠性檢查表建議：

回復：07	執行與復原目標一致的結構化、經過測試的，和有記錄的商務持續性和災害復原 (BCDR) 計畫。計畫必須涵蓋所有元件和整個系統。

本指南說明為工作負載設計可靠的災害復原原則的建議。若要符合內部服務等級目標 (SLO) 或甚至是已為客戶保證的服務等級協定 (SLA)，您必須具有健全且可靠的災害復原原則。出現故障和其他重大問題都是意料之中的。您處理這些事件的準備工作會決定您的客戶有多信任您的企業能可靠地為他們提供服務。災難復原原則是為重大事件做準備的支柱。

定義

詞彙	定義
容錯移轉	自動和/或手動將生產工作負載流量從不可用區域轉移到不受影響的區域。
容錯回復	自動和/或手動將生產工作負載流量從容錯移轉區域轉移回主要區域。

關鍵設計原則

本指南假定您已執行以下任務作為可靠性規劃的一部分：

識別關鍵和非關鍵流程。
對您的流程執行失效模式分析 (FMA)。
找出可靠性目標。
設計健全的測試原則。

可靠的工作負載體系結構是可靠的災害復原 (DR) 原則的基礎。建立工作負載的每個階段時，請考慮可靠性，以確保您擁有高效率復原所需的元件，然後再開始規劃您的災害復原原則。此基礎可確保您工作負載的可靠性目標，如復原時間目標 (RTO) 和復原點目標 (RPO) 是實際且可實現的。

維護災害復原計畫

工作負載的可靠 DR 原則的關鍵是 DR 計畫。您的計畫應該是一個活文件，會隨著環境的變化定期修訂和更新。定期 (例如，每六個月) 與相關團隊 (營運、科技領導職位和業務利害關係人) 共享計畫。將其保存在高度可用、安全的資料存放區中，如 OneDrive。

請遵循以下建議來制定災害復原計畫：

明確定義災害的構成以及需要啟動災害復原計畫的內容。

災害是大規模問題。它們可能是區域性中斷、Microsoft Entra 識別碼或 Azure DNS 等服務中斷，或是勒索軟體攻擊或 DDoS 攻擊等嚴重惡意攻擊。

在 DR 計畫中包括不被視為災害的失效模式範例，例如單一資源的不可用或失敗，以讓操作員不會錯誤地調用其 DR 上報。
在 FMA 文件上組建災害復原計畫。請確定您的災害復原計畫會擷取定義為災害之中斷的失效模式和緩解原則。如果需要更新，請同時更新 DR 計畫和 FMA 文件，這樣在環境變更或測試發現意外行為時，它們會準確無誤。
明確定義工作負載團隊中的角色和職責，並了解組織內任何相關外部角色。如果災害是由外部服務 (如 Microsoft Entra 識別碼) 中斷而引起的，請確認您已經定義了負責與外部方通訊的角色，且他可以與工作負載團隊共用更新。角色應包括：
- 負責宣佈災害的一方
- 負責宣佈事件結案的一方
- 操作角色
- 測試和驗證角色
- 內部和外部通訊角色
- 回顧和根本原因分析 (RCA) 領導角色
定義工作負載團隊必須遵循的上報路徑，以確保將復原狀態傳達給利害關係人。
包括為了造成最小影響而應復原之工作負載元件的規定順序。例如，在恢復應用程式之前，先恢復資料庫並重新啟動雲端流程。
- 詳細說明每個元件的復原程序作為逐步指南。如果可以的襪，請包括螢幕截圖以及執行該程序的先決條件。例如，列出需要收集的必要指令碼或認證。
- 定義團隊的職責與雲端託管供應商的責任。例如， Microsoft 負責還原 PaaS (平臺即服務)，但您負責解除凍結數據並將配置應用於服務。
- 擷取事件的根本原因，並在開始復原之前執行緩解措施。例如，如果事件的原因是安全性問題，請在恢復容錯移轉環境中受影響的系統之前，先緩解該問題。
如果需要在容錯移轉環境中重新部署應用程式，請使用工具盡可能自動執行部署過程。請確定在容錯移轉環境中預先部署並正確設定了 Azure 管道，以便可以立即開始部署。使用自動化的端到端部署，並在必要時使用手動核准閘門，以確保一致且高效率的部署流程。當部署過程的某個階段需要手動干預時，請記錄手動步驟。清楚定義角色和責任。
盡可能多自動化執行程序。使用重試邏輯以避免浪費時間在卡在中斷工作上的指令碼上。由於您僅在緊急情況下才執行這些指令碼，因此您不希望錯誤開發的指令碼造成更多損害或減慢復原過程。

注意

自動化會帶來風險。訓練有素的操作員需要仔細監控自動化流程，並在任何流程遇到問題時進行干預。若要最大限度地降低自動化對誤判做出反應的風險，請徹底進行災害復原演練。測試計畫的所有階段。模擬偵測以產生警報，然後完成整個復原過程。

進行災害復原演練

災害復原測試實踐對於良好的災害復原計畫至關重要。許多產業都有合規性結構描述，需要定期進行災害復原演練。無論您身處哪個產業，頻繁的災害復原演練對您的成功都非常重要。

請遵循以下建議以成功進行災害復原演練：

每年至少執行一次生產災害復原演練。空執行演練或非生產演練有助於確保相關各方熟悉其角色和職責。這些演練還有助於操作員透過遵循復原過程來建立熟悉度。但只有生產演練才能真正測試 DR 計畫以及 RTO 和 RPO 指標的有效性。使用您的生產演練對元件和流程的復原過程進行計時，以確保為您的工作負載所定義的 RTO 和 RPO 目標是可實現的。對於無法控制的功能 (如 Microsoft Entra 識別碼中斷)，請確認涉及這些功能的流程的 RTO 和 RPO 目標考慮了超出您控制的可能延遲。
使用空執行演練向新操作員介紹災害復原流程和程序。資深操作員應花時間讓新操作員發揮其角色作用，並應留意改進機會。如果新操作員對過程中的某個步驟猶豫不決或感到困惑，請檢閱該過程以確保它寫得很清楚。

考量因素

在生產環境中執行 DR 演練可能會導致意外的突發故障。請務必在初始部署期間，在非商業執行環境中測試復原過程。

在演練期間，盡可能為您的團隊提供多一點的維護時間。規劃維護時間時，請使用在測試期間擷取的復原指標作為最短必要時間分配。

隨著 DR 演練實踐的成熟，您將了解哪些程序可以並列執行，哪些程序必須按順序執行。在演練實踐的早期，會假設每個程序都必須按順序執行，且每個步驟都需要額外的時間來處理意外問題。

容錯移轉功能

Microsoft 業務應用程式為 Dynamics 365 中的所有生產 Power Platform 環境和軟體即服務 (SAAS) 應用程式提供業務連續性和災難恢復 (BCDR) 功能。 Microsoft 瞭解如何確保您的生產數據在區域性中斷期間具有彈性。

可靠性檢查清單

請參閱完整的建議集。

可靠性檢查表

共用方式為