共用方式為


在雲端管理中保護和復原

在準備潛在的工作負載中斷之前,雲端管理小組應該先確定他們符合下列需求:

他們計劃時,小組必須從假設災害發生時會失敗。 為中斷做準備可讓小組更快偵測失敗,並更快速地復原。 此專業領域的重點在於系統失敗后立即發生的步驟。 如何保護工作負載,以便在發生中斷時快速復原工作負載?

任何技術解決方案都無法持續提供保證 100% 運行時間的 SLA。 具有最多備援架構的解決方案會宣告在「六個 9」或 99.9999% 運行時間上傳遞。 但即使是在任何給定年份的「六九」解決方案也下降了31.6秒。 解決方案很少需要大量持續運作的投資,才能達到「六個 9 秒」的運行時間。

轉譯保護和復原交談

為商務作業提供動力的工作負載包括:

  • 應用程式
  • 資料
  • 虛擬機器 (VM)
  • 其他資產

每個資產可能需要自己的保護和復原方法。 此專業領域的重要目標是在管理基準內建立一致的承諾,以提供商務討論的起點。

雲端管理小組至少應該為每個資產建立基準方法,並明確承諾快速復原和最少的數據遺失。

復原時間目標 (RTO)

復原時間目標是在災害發生前將任何系統復原到其狀態所需的時間量。 這包括下列時間:

  • 將最小功能還原至 VM 和應用程式
  • 還原應用程式所需的數據。

在商務方面,RTO 代表商務程式服務不足的時間量。 對於任務關鍵性工作負載,此變數應該相對較低,可讓商務程式快速恢復。 對於優先順序較低的工作負載,標準層級的 RTO 可能不會對公司效能造成明顯的影響。

企業應建立管理基準,為非任務關鍵性工作負載建立標準 RTO。 然後,企業可以使用該基準作為在復原時間進行額外投資的合理化方式。

復原點目標 (RPO)

在大部分的雲端管理系統中,某種形式的數據保護會定期擷取和儲存數據。 恢復點是指上次擷取數據的時間。 當系統失敗時,它只能還原至最新的恢復點。

恢復點目標是從最近的恢復點到中斷的測量。 如果以小時為單位來測量 RPO,系統失敗會導致最後一個恢復點與中斷之間的時數遺失數據。 如果 RPO 是以天為單位來測量,系統失敗會導致最後一個恢復點與中斷之間的天數遺失數據。 一天 RPO 理論上會導致在失敗前一天遺失所有交易。

對於任務關鍵性系統,以分鐘或秒為單位測量 RPO 可能有助於避免營收或利潤損失。 不過,較短的 RPO 通常會導致管理成本增加。 為了協助將這些成本降到最低,企業應該建立一個以最長可接受的 RPO 為重點的管理基準。 然後,企業可以減少特定平臺或工作負載的 RPO,這些平臺或工作負載需要更多投資。

保護及復原工作負載

IT 中的大部分工作負載 環境支援 特定商務或技術程式。 對商務營運沒有系統性影響的系統通常不需要增加復原系統或將數據遺失降至最低所需的投資。 藉由建立基準,企業可以找出他們可以一致管理的價格點所需的復原支援層級。 瞭解這可協助企業項目關係人評估增加對復原投資的價值。

對於大部分的雲端管理小組來說,增強的基準,具有各種資產的特定 RPO/RTO 承諾,可產生最有利的共同業務承諾路徑。 下列各節概述一些常見的增強型基準,讓企業能夠透過可重複的程式輕鬆地新增保護和復原功能。

保護及復原數據

數據可以說是數字經濟中最有價值的資產。 失去為生產工作負載提供動力的數據,會導致收益或利潤損失。 最常見的增強基準是有效保護和復原數據的能力。 我們鼓勵雲端管理小組提供支援一般數據平臺的增強式管理基準層級。

在雲端管理小組實作平台作業之前,通常會支援平臺即服務 (PaaS) 數據平臺的改善作業。 例如,雲端管理小組很容易針對 Azure SQL 資料庫 或 Azure Cosmos DB 解決方案強制執行較高頻率的備份或多區域複寫。 這麼做可讓開發小組藉由將其數據平臺現代化,輕鬆地改善 RPO。

若要深入瞭解此想法程式,請參閱 平臺作業專業領域

保護及復原 VM

大部分的工作負載有些相依於裝載解決方案各個層面的虛擬機。 企業必須快速復原某些虛擬機,工作負載才能在系統失敗后支援其程式。

這些虛擬機上的每分鐘停機都可能導致收益損失或利潤降低。 當 VM 停機直接影響到企業的會計效能時,RTO 非常重要。 雲端管理小組可以將虛擬機復寫至次要月臺,並使用自動化復原來快速復原虛擬機,這是稱為熱暖恢復模式的模型。 小組也可以在稱為經常性存取或高可用性模型的方法中,將虛擬機複寫至功能、次要月臺。 經常性存取的方法較昂貴,但它提供最高的復原狀態。

每個模型都會減少 RTO,以協助企業更快速地還原其商務功能。 不過,每個模型也會導致雲端管理成本大幅增加。

另請注意,除了高可用性的複寫之外,應該針對下列案例啟用備份:

  • 意外刪除
  • 數據損毀
  • 勒索軟體攻擊

如需此想法程式的詳細資訊,請參閱 工作負載作業專業領域

下一步

符合此管理基準元件之後,小組可以期待避免其平台作業和工作負載作業中斷。