vSAN 확장 클러스터 디자인

아티클
06/04/2024

이 문서에서는 Azure VMware Solution 프라이빗 클라우드에 대해 vSAN 확장 클러스터를 디자인하는 방법을 알아봅니다.

배경

Azure의 글로벌 인프라는 지역으로 나뉩니다. 각 지역은 지정된 지역에 대한 서비스를 지원합니다. 각 지역 내에서 Azure는 AZ(가용성 영역)라는 격리된 중복 인프라 영역을 빌드합니다. AZ는 리소스 관리를 위한 경계 역할을 합니다. AZ에서 사용할 수 있는 컴퓨팅 및 기타 리소스는 유한하며 고객의 요구에 따라 소진될 수 있습니다. AZ는 독립적으로 복원할 수 있도록 빌드되었습니다. 즉, 한 AZ의 오류는 다른 AZ에 영향을 주지 않습니다.

Azure VMware Solution에서 표준 vSphere 클러스터에 배포된 ESXi 호스트는 일반적으로 단일 AZ(Azure 가용성 영역)에 상주하며 vSphere HA(고가용성)로 보호됩니다. 그러나 Azure AZ 오류로부터 워크로드를 보호하지는 않습니다. AZ 오류로부터 보호하기 위해 단일 vSAN 클러스터를 사용하도록 설정하여 vSAN 확장 클러스터라고 하는 두 개의 개별 가용성 영역에 걸쳐 있을 수 있습니다.

확장된 클러스터를 사용하면 두 AZ에서 vSAN 장애 도메인을 구성하여 호스트가 각 AZ(가용성 영역)에 상주하는 vCenter Server에 알릴 수 있습니다. 각 장애 도메인은 명확성을 높이기 위해 상주하는 AZ의 이름을 따서 명명됩니다. 지역 내의 두 AZ에서 vSAN 클러스터를 확장할 때 AZ가 다운되면 vSphere HA 이벤트로 처리되고 가상 머신은 다른 AZ에서 다시 시작됩니다.

확장된 클러스터의 이점:

애플리케이션 가용성을 개선합니다.
엔터프라이즈 애플리케이션을 다시 디자인하거나 비용이 많이 드는 DR(재해 복구) 솔루션을 배포할 필요 없이 엔터프라이즈 애플리케이션에 대한 RPO(제로 복구 지점 목표) 기능을 제공합니다.
확장된 클러스터가 있는 프라이빗 클라우드는 AZ 오류에 대한 복원력으로 인해 99.99%의 가용성을 제공하도록 설계되었습니다.
고객이 인프라 가용성 대신 핵심 애플리케이션 요구 사항 및 기능에 집중할 수 있도록 합니다.

분할 브레인 시나리오로부터 보호하고 사이트 상태를 측정하기 위해 관리형 vSAN 미러링 모니터가 세 번째 AZ에 만들어집니다. vSphere HA는 각 AZ의 데이터 복사본을 통해 가상 머신의 간단한 다시 시작을 사용하여 오류로부터 복구하려고 시도합니다.

다음 다이어그램은 두 AZ에 걸쳐 확장된 vSAN 클러스터를 보여 줍니다.

요약하자면, 확장된 클러스터는 Azure 인프라의 규모와 유연성 외에도 동일한 신뢰할 수 있는 컨트롤과 기능을 제공하여 보호 요구를 사항을 간소화합니다.

확장된 클러스터 프라이빗 클라우드는 추가 복원력 계층만 제공하며 모든 오류 시나리오를 해결하지는 못한다는 점을 이해하는 것이 중요합니다. 예를 들어 확장된 클러스터 프라이빗 클라우드는,

Azure 내의 지역 수준 오류 또는 애플리케이션 문제 또는 제대로 계획되지 않은 스토리지 정책으로 인한 데이터 손실 시나리오로부터 보호하지 마세요.
단일 영역 오류에 대한 보호를 제공하지만 이중 또는 점진적 오류에 대한 보호를 제공하도록 설계되지 않았습니다. 예:
- 패브릭에 기본 제공되는 다양한 중복 계층에도 불구하고 AZ 간 오류로 인해 보조 사이트가 분할되면 vSphere HA는 보조 사이트의 워크로드 VM 전원을 끄기 시작합니다.
  
  다음 다이어그램은 보조 사이트 분할 시나리오를 보여 줍니다.
- 보조 사이트 분할이 주 사이트의 실패로 진행되었거나 전체 분할이 발생한 경우 vSphere HA는 보조 사이트에서 워크로드 VM을 다시 시작하려고 시도합니다. vSphere HA가 보조 사이트에서 워크로드 VM을 다시 시작하려고 하면 워크로드 VM이 불안정한 상태가 됩니다.
  
  다음 다이어그램은 기본 사이트 오류 및 전체 네트워크 분할 시나리오를 보여줍니다.

이러한 유형의 오류는 드물지만 확장된 클러스터 프라이빗 클라우드에서 제공하는 보호 범위를 벗어난다는 사실에 주의해야 합니다. 이러한 유형의 드문 오류로 인해 확장된 클러스터 솔루션은 vSphere HA에 의존하는 다중 AZ 고가용성 솔루션으로 간주되어야 합니다. 확장된 클러스터 솔루션은 애플리케이션 가용성을 보장하기 위해 사용할 수 있는 포괄적인 다중 지역 재해 복구 전략을 대체하기 위한 것이 아니라는 것을 이해하는 것이 중요합니다. 그 이유는 일반적으로 재해 복구 솔루션에는 별도의 Azure 지역에 별도의 관리 및 제어 평면이 있기 때문입니다. Azure VMware Solution 확장 클러스터에는 동일한 Azure 지역 내의 두 가용성 영역에 걸쳐 단일 관리 및 컨트롤 플레인이 확장됩니다. 예를 들어 vCenter Server 1개, NSX Manager 클러스터 1개, NSX Edge VM 쌍 1개입니다.

확대 클러스터 영역 가용성

Azure VMware Solution 확장 클러스터는 다음 지역에서 사용할 수 있습니다.

영국 남부(AV36 및 AV36P)
서유럽(AV36 및 AV36P)
독일 중서부(AV36 및 AV36P)
오스트레일리아 동부(AV36P)
미국 동부(AV36P)

지원되는 스토리지 정책

"이중 사이트 미러링"의 PFTT 및 "RAID 1(미러링)"의 SFTT가 클러스터의 기본 정책으로 사용하도록 설정되면 다음 SPBM 정책이 지원됩니다.

PFTT(사이트 재해 허용 오차 설정):
- 이중 사이트 미러링
- 없음 - 기본 설정으로 데이터 유지
- 없음 - 기본 설정이 아닌 데이터 유지
SFTT(허용되는 로컬 오류):
- 1 오류 – RAID 1(미러링)
- 1 오류 – RAID 5(지우기 코딩)에는 각 AZ에 최소 4개의 호스트가 필요합니다.
- 2 오류 – RAID 1(미러링)
- 2 오류 – RAID 6(지우기 코딩)에는 각 AZ에 최소 6개의 호스트가 필요합니다.
- 3 오류 – RAID 1(미러링)

FAQ

다른 지역이 계획되어 있나요?

현재 확장 클러스터에 대해 지원되는 5개의 지역이 있습니다.

Azure VMware Solution은 확대 클러스터에 어떤 종류의 SLA를 제공하나요?

vSAN 확장 클러스터를 사용하여 만든 프라이빗 클라우드는 다음 조건에서 99.99% 인프라 가용성 약정을 제공하도록 설계되었습니다.

클러스터에 최소 6개의 노드가 배포됩니다(각 가용성 영역에 3개).
워크로드 VM에서 “이중 사이트 미러링”의 PFTT 및 1의 SFTT에 대한 VM 스토리지 정책을 사용하는 경우
가용성 목표를 달성하려면 Azure VMware Solution의 SLA 세부 정보에 캡처된 추가 요구 사항을 준수해야 합니다.

프라이빗 클라우드가 배포되는 가용성 영역을 선택해야 하나요?

아니요. 확장된 클러스터는 두 가용성 영역 간에 만들어지고 세 번째 영역은 미러링 모니터 노드를 배포하는 데 사용됩니다. 모든 영역은 확장된 클러스터 환경을 배포하는 데 효과적으로 사용되므로 고객에게 선택 사항이 제공되지 않습니다. 대신 고객은 프라이빗 클라우드를 만들 때 여러 AZ에 호스트를 배포하도록 선택합니다.

알아야 할 제한 사항은 무엇인가요?

확장된 클러스터를 사용하여 프라이빗 클라우드를 만든 후에는 표준 클러스터 프라이빗 클라우드로 변경할 수 없습니다. 마찬가지로 표준 클러스터 프라이빗 클라우드를 만든 후에는 확장된 클러스터 프라이빗 클라우드로 변경할 수 없습니다.
확장된 클러스터의 스케일 아웃 및 스케일 인은 쌍으로만 발생할 수 있습니다. 확장된 클러스터 환경에서 최소 6개의 노드와 최대 16개의 노드가 지원됩니다. 자세한 내용은 Azure 구독 및 서비스 제한, 할당량 및 제약 조건을 참조하세요.
고객 워크로드 VM은 중간 vSphere HA 우선 순위로 다시 시작됩니다. 관리 VM의 재시작 우선 순위가 가장 높습니다.
솔루션은 다시 시작 및 복제를 위해 vSphere HA 및 vSAN을 사용합니다. RTO(복구 시간 목표)는 단일 AZ가 실패한 후 vSphere HA가 살아남은 AZ에서 VM을 다시 시작하는 데 걸리는 시간에 따라 결정됩니다.
현재 확장된 클러스터 환경에서는 지원되지 않습니다.
- NSX Edge까지의 공용 IP 및 ANF 데이터스토어와 같은 외부 스토리지와 같은 기능이 최근 출시되었습니다.
- VMware SRM, Zerto 및 JetStream과 같은 재해 복구 추가 기능
다음 시나리오에 대해 Azure Portal에서 지원 티켓을 엽니다(문제 유형으로 확대 클러스터를 선택해야 함).
- 프라이빗 클라우드를 확대 클러스터 프라이빗 클라우드에 연결
- 단일 지역에서 2개의 확대 클러스터 프라이빗 클라우드 연결

AZ(가용성 영역) 간에 어떤 종류의 대기 시간이 예상되어야 하나요?

vSAN 확장 클러스터는 워크로드 VM을 호스트하는 AZ 간에 5밀리초 RTT(왕복 시간) 및 10Gb/s 이상의 대역폭 내에서 작동합니다. Azure VMware Solution 확장 클러스터 배포는 해당 지침 원칙을 따릅니다. 엄격한 대기 시간 요구 사항이 있는 애플리케이션(동기 쓰기를 사용하는 이중 사이트 미러링의 SFTT 포함)을 배포할 때 해당 정보를 고려합니다.

프라이빗 클라우드에서 확장된 클러스터와 표준 클러스터를 혼합할 수 있나요?

아니요. 확장된 클러스터와 표준 클러스터의 혼합은 동일한 프라이빗 클라우드 내에서 지원되지 않습니다. 프라이빗 클라우드를 만들 때 확장 또는 표준 클러스터 환경이 선택됩니다. 확대 클러스터를 사용하여 프라이빗 클라우드를 만든 후에는 해당 프라이빗 클라우드 내에서 만든 모든 클러스터가 본질적으로 확대된 것으로 가정합니다.

솔루션 비용은 얼마나 되나요?

고객에게는 프라이빗 클라우드 내에 배포된 노드 수에 따라 요금이 청구됩니다.

감시 노드 및 AZ 간 트래픽에 대해 요금이 부과됩니까?

아니요. 고객에게는 감시 노드 및 AZ 간 트래픽에 대한 요금이 표시되지 않습니다. 미러링 모니터 노드는 전적으로 서비스 관리형이며, Azure VMware Solution 미러링 모니터 서버 노드의 필요한 수명 주기 관리를 제공합니다. 전체 솔루션이 서비스를 관리하므로 고객은 워크로드 가상 머신에 대해 설정할 적절한 SPBM 정책만 식별하면 됩니다. 나머지는 Microsoft를 통해 관리됩니다.

다음을 통해 공유