共用方式為


設計 vSAN 延展式叢集

在本文中,瞭解如何為 Azure VMware 解決方案 私人雲端設計 vSAN 延展式叢集。

背景

Azure 的全域基礎結構細分成多個區域。 每個區域負責支援指定地理位置的服務。 Azure 會在每個區域中建置隔離的備援基礎結構島,稱為可用性區域 (AZ)。 AZ 可作為資源管理的界限。 AZ 可用的計算和其他資源是有限的,可能會因客戶需求而耗盡。 AZ 具有獨立復原性,這表示一個 AZ 中的失敗不會影響其他 AZ。

透過 Azure VMware 解決方案,部署在標準 vSphere 叢集中的 ESXi 主機,傳統上位於單一 Azure 可用性區域 (AZ),並受到 vSphere 高可用性 (HA) 的保護。 不過並無法防止工作負載受到 Azure AZ 失敗影響。 為了防止受到 AZ 失敗影響,可以啟用單一 vSAN 叢集以跨越兩個不同的可用性區域,稱為 vSAN 延展式叢集

延展式叢集允許跨兩個 AZ 設定 vSAN 容錯網域,以通知 vCenter Server 主機位於每個可用性區域 (AZ)。 每個容錯網域都會以所處的 AZ 命名,方便更清楚識別。 在區域內的兩個 AZ 之間延展 vSAN 叢集時,如果其中一個 AZ 關閉,系統會視為 vSphere HA 事件,並在另一個 AZ 中重新啟動虛擬機器。

延展式叢集優點:

  • 改善應用程式可用性。
  • 為企業應用程式提供零復原點目標 (RPO) 功能,不需要重新設計應用程式,也不需要部署昂貴的災害復原 (DR) 解決方案。
  • 具有延展式叢集的私人雲端的設計目的是為了提供 99.99% 的可用性,因為可復原 AZ 失敗。
  • 讓客戶專注於核心應用程式需求和功能,而不是基礎結構可用性。

為了防止拆分情況並協助衡量網站健康情況,系統會在第三個 AZ 中建立受控 vSAN 見證。 使用每個 AZ 中的資料複本時,vSphere HA 會嘗試使用虛擬機器的簡單重新啟動,從任何失敗復原。

下圖說明跨兩個 AZ 延展的 vSAN 叢集。

圖表顯示在第三個可用性區域中建立的受控 vSAN 延展式叢集,並將數據複製到這三個可用性區域。

總而言之,延展式叢集除了 Azure 基礎結構的規模和彈性之外,還提供相同的受信任控制項和功能,可簡化保護需求。

請務必瞭解延展式叢集私人雲端只提供額外的復原層,而且不會解決所有失敗案例。 例如,延展式叢集私人雲端:

  • 不會防止因 Azure 內的區域層級失敗,或是應用程式問題或規劃不佳的儲存體原則所造成的資料遺失情況。
  • 針對單一區域失敗提供保護,但並非設計為為雙次或漸進式失敗提供保護機制。 例如:
    • 雖然網狀架構內建多層備援,但如果 AZ 間失敗導致次要站台發生資料分割,vSphere HA 就會開始將次要站台上的工作負載 VM 關閉。

      下圖顯示次要站台資料分割案例。

      圖表顯示 vSphere 高可用性,可關閉次要站臺上的工作負載虛擬機。

    • 如果次要站台資料分割發展為主要站台失敗,或導致完整的資料分割,vSphere HA 會嘗試重新啟動次要站台上的工作負載 VM。 如果 vSphere HA 嘗試重新啟動次要站台上的工作負載 VM,會讓工作負載 VM 處於不穩定狀態。

      下圖顯示慣用的站台失敗和完整網路資料資料分割案例。

      圖表顯示嘗試在發生慣用月台失敗時重新啟動次要站臺上的工作負載虛擬機的 vSphere 高可用性。

      圖表顯示 vSphere 高可用性嘗試在發生完整網路隔離時重新啟動次要站臺上的工作負載虛擬機。

請注意,這些類型的失敗雖然很少發生,但會落在延展式叢集私人雲端所提供的保護範圍之外。 由於這些類型的罕見失敗,延展式叢集解決方案應該視為依賴 vSphere HA 的多 AZ 高可用性解決方案。 請務必瞭解,延展式叢集解決方案的用途,並非取代可用來確保應用程式可用性的全面性多區域災害復原策略。 原因是災害復原解決方案通常在個別的 Azure 區域中會有獨立的管理和控制平面。 Azure VMware 解決方案延展式叢集,在相同 Azure 區域內的兩個可用性區域之間延展單一管理和控制平面。 例如,一個 vCenter Server、一個 NSX Manager 叢集、一個 NSX Edge VM 配對。

延展式叢集區域可用性

Azure VMware 解決方案延展式叢集可在下列區域中使用:

  • 英國南部 (在 AV36 和 AV36P 上)
  • 西歐 (在 AV36 和 AV36P 上)
  • 德國中西部 (AV36 和 AV36P)
  • 澳大利亞東部 (在 AV36P 上)
  • 美國東部 (AV36P)

支援的儲存體原則

支援下列 SPBM 原則,並啟用「雙站台鏡像」的 PFTT 和「RAID 1 (鏡像)」的 SFTT 作為叢集的預設原則:

  • 站台災害容錯設定 (PFTT):
    • 雙站台鏡像
    • 無 - 保留慣用資料
    • 無 - 保留非慣用資料
  • 容許的本機失敗 (SFTT):
    • 1 次失敗 – RAID 1 (鏡像)
    • 1 次失敗 – RAID 5 (清除編碼),每個 AZ 中至少需要 4 部主機
    • 2 次失敗 – RAID 1 (鏡像)
    • 2 次失敗 – RAID 6 (清除編碼),每個 AZ 中至少需要 6 部主機
    • 3 次失敗 – RAID 1 (鏡像)

常見問題集

是否有規劃任何其他區域開放?

目前, 延展式叢集支援 五個區域。

Azure VMware 解決方案搭配延展式叢集提供什麼 SLA?

使用 vSAN 延展式叢集建立的私人雲端,設計成可在發生下列情況時,承諾提供 99.99% 的基礎結構可用性:

  • 叢集中至少部署了 6 個節點 (每個可用性區域 3 個)。
  • 工作負載 VM 使用「雙站台鏡像」的 PFTT 和 SFTT 為 1 的 VM 儲存原則時。
  • 需要符合 Azure VMware 解決方案的 SLA 詳細資料中所擷取的其他需求,才能達到可用性目標。

我可以選擇在哪個可用性區域部署私人雲端嗎?

否。 延展式叢集會在兩個可用性區域之間建立,而第三個區域則用於部署見證節點。 由於所有區域都有效用於部署延展式叢集環境,因此不開放客戶選擇。 而是讓客戶在建立私人雲端時選擇在多個 AZ 中部署主機。

我應該注意哪些限制?

  • 使用延展式叢集建立私人雲端之後,就無法變更為標準叢集私人雲端。 同樣地,標準叢集私人雲端一旦建立,就無法變更為延展式叢集私人雲端。
  • 擴增和縮減延展式叢集只能成對進行。 延展式叢集環境支援最少 6 個、最多 16 個節點。 如需詳細資訊,請參閱 Azure 訂用帳戶和服務限制、配額與條件約束
  • 客戶工作負載 VM 會依照適中 vSphere HA 優先順序重新啟動。 管理 VM 的重新啟動優先順序最高。
  • 解決方案依賴 vSphere HA 和 vSAN 進行重新啟動和複寫。 復原時間目標 (RTO) 取決於 vSphere HA 在單一 AZ 失敗之後,在存留的 AZ 上重新啟動 VM 所需的時間。
  • 延展式叢集環境中目前不支援:
    • 最近發行的功能,例如公用 IP 向下到 NSX Edge 和外部儲存體 (例如ANF 資料存放區)。
    • 災害復原附加元件,例如 VMware SRM、Zerto 和 JetStream。
  • 從 Azure 入口網站對下列案例開啟支援票證 (請務必選取 [延展式叢集] 作為 [問題類型]):
    • 將私人雲端連線到延展式叢集私人雲端。
    • 連接單一區域中的兩個延展式叢集私人雲端。

可用性區域 (AZ) 之間應該預期何種延遲?

vSAN 延展式叢集會以 5 毫秒的來回行程時間 (RTT) 運作,搭配裝載工作負載 VM 的 AZ 之間 10 Gb/秒或更高的頻寬。 Azure VMware 解決方案延展式叢集部署遵循該指導方針。 部署具有嚴格延遲需求的應用程式 (具有會使用同步寫入的雙站台鏡像 SFTT) 時,請考慮這些資訊。

我可以在私人雲端中混合使用延展式和標準叢集嗎?

否。 同一個私人雲端中不支援混合使用延展式和標準叢集。 建立私人雲端時,需選取延展式或標準叢集環境。 使用延展式叢集建立私人雲端之後,系統會假設在該私人雲端內建立的所有叢集本質上都會延展。

解決方案的費用是多少?

客戶需根據在私人雲端內部署的節點數來付費。

我是否需支付見證節點和 AZ 間流量的費用?

否。 客戶不需要支付見證節點和 AZ 間流量的費用。 見證節點完全受控於服務,Azure VMware 解決方案提供見證節點的必要生命週期管理。 由於整個解決方案都受控於服務,客戶只需要識別要為工作負載虛擬機器設定的適當 SPBM 原則。 其餘部分均透過 Microsoft 管理。