Azure Event Grid 및 Event Grid 네임스페이스의 안정성
이 문서에는 가용성 영역 및 지역 간 재해 복구 및 비즈니스 연속성을 통한 Event Grid 및 Event Grid 네임스페이스 지역 복원력에 대한 자세한 정보가 포함되어 있습니다.
Azure의 안정성에 대한 아키텍처 개요는 Azure 안정성을 참조하세요.
가용성 영역 지원
가용성 영역은 각 Azure 지역 내에서 물리적으로 별도의 데이터 센터 그룹입니다. 한 영역이 실패하면 서비스가 나머지 영역 중 하나로 장애 조치(failover)될 수 있습니다.
Azure의 가용성 영역에 대한 자세한 내용은 가용성 영역이란?을 참조하세요.
항목, 시스템 항목, 도메인, 이벤트 구독 및 이벤트 데이터에 대한 Event Grid 리소스 정의는 세 가지 가용성 영역에 자동으로 복제됩니다. 가용성 영역 중 하나에 지역 장애가 발생하면 Event Grid 리소스는 사용자의 개입 없이 다른 가용성 영역으로 자동으로 장애 조치(failover)합니다. 현재 이 기능을 제어(사용 또는 사용 안 함)할 수 없습니다. 기존 지역에서 가용성 영역 지원을 시작하면 기존 Event Grid 리소스가 이 기능을 활용하기 위해 자동으로 장애 조치(failover)됩니다. 고객이 수행할 작업은 없습니다.
또한 Azure Event Grid 네임스페이스는 가용성 영역을 사용하여 지역 내 고가용성을 달성합니다.
필수 조건
가용성 영역 지원을 위해서는 Event Grid 리소스가 가용성 영역을 지원하는 지역에 있어야 합니다. 가용성 영역을 지원하는 지역을 검토하려면 지원되는 지역 목록을 참조하세요.
가격 책정
Event Grid는 가용성 영역을 지원하는 지역에서 자동으로 가용성 영역을 지원하므로 가격에는 변화가 없습니다.
가용성 영역을 사용하도록 설정된 리소스 만들기
Event Grid는 가용성 영역을 지원하는 지역에서 자동으로 가용성 영역을 지원하므로 필수 설치 구성이 없습니다.
가용성 영역 지원으로 마이그레이션
가용성 영역을 지원하는 지역에 Event Grid 리소스를 재배치하면 자동으로 가용성 영역 지원을 받게 됩니다. 가용성 영역을 지원하는 다른 지역으로 리소스를 재배치하는 방법을 알아보려면 다음을 참조하세요.
- Azure Event Grid 시스템 항목을 다른 지역으로 재배치
- Azure Event Grid 사용자 지정 항목을 다른 지역으로 재배치
- Azure Event Grid 도메인을 다른 지역으로 재배치
지역 간 재해 복구 및 비즈니스 연속성
DR(재해 복구)은 가동 중지 시간 및 데이터 손실을 초래하는 자연 재해 또는 실패한 배포와 같은 영향이 큰 이벤트로부터 복구하는 것입니다. 원인에 관계없이 최상의 재해 해결책은 잘 정의되고 테스트된 DR 계획과 DR을 적극적으로 지원하는 애플리케이션 디자인입니다. 재해 복구 계획을 만들기 전에 재해 복구 전략을 디자인하기 위한 권장 사항을 참조하세요.
DR과 관련하여 Microsoft는 공유 책임 모델을 사용합니다. 공유 책임 모델에서 Microsoft는 기준 인프라 및 플랫폼 서비스를 사용할 수 있도록 보장합니다. 동시에 많은 Azure 서비스는 데이터를 자동으로 복제하거나 실패한 지역에서 대체하여 사용하도록 설정된 다른 지역으로 교차 복제하지 않습니다. 이러한 서비스의 경우 자신의 워크로드에 적합한 재해 복구 계획을 설정할 책임이 있습니다. Azure PaaS(Platform as a Service) 제품에서 실행되는 대부분의 서비스는 DR을 지원하는 기능과 지침을 제공하며, 서비스별 기능을 사용하여 빠른 복구를 지원하여 DR 계획을 개발하는 데 도움이 될 수 있습니다.
재해 복구에는 일반적으로 지역이 비정상이 될 때 중단을 방지하기 위해 백업 리소스를 만드는 작업이 포함됩니다. 이 프로세스 중에는 워크로드에 Azure Event Grid 리소스의 기본 및 보조 지역이 필요합니다.
애플리케이션 기능의 심각한 손실을 복구하는 방법에는 여러 가지가 있습니다. 이 섹션에서는 비정상 리소스 또는 지역으로 인한 오류로부터 클라이언트를 복구할 수 있도록 준비하기 위해 따라야 할 검사 목록에 대해 설명합니다.
Event Grid는 서버 쪽에서 수동 및 자동 GeoDR(지역 재해 복구)을 지원합니다. 장애 조치(failover) 프로세스를 더 효과적으로 제어하려는 경우 클라이언트 쪽 재해 복구 논리를 구현할 수 있습니다. 자동 GeoDR에 대한 자세한 내용은 Azure Event Grid의 서버 쪽 지역 재해 복구를 참조하세요. 클라이언트 쪽 재해 복구 구현 방법에 관한 자세한 내용은 Azure Event Grid의 클라이언트 쪽 장애 조치(failover) 구현을 참조하세요.
다음 표에서는 Event Grid의 클라이언트 쪽 장애 조치(failover) 및 지역 재해 복구 지원을 보여 줍니다.
Event Grid 리소스 | 클라이언트 쪽 장애 조치(failover) 지원 | GeoDR(지역 재해 복구) 지원 |
---|---|---|
사용자 지정 토픽 | 지원됨 | 지역 간/지역 |
시스템 토픽 | 지원되지 않음 | 자동으로 사용하도록 설정됨 |
도메인 | 지원됨 | 지역 간/지역 |
파트너 네임스페이스 | 지원됨 | 지원되지 않음 |
네임스페이스 | 지원됨 | 지원되지 않음 |
Event Grid 네임스페이스
Event Grid 네임스페이스는 지역 간 DR을 지원하지 않습니다. 그러나 기본 및 보조 네임스페이스를 만들어 클라이언트 쪽 장애 조치(failover) 구현을 통해 지역 간 고가용성을 달성할 수 있습니다.
클라이언트 쪽 장애 조치(failover) 구현을 통해 다음을 수행할 수 있습니다.
네임스페이스, 클라이언트 ID 및 CA 인증서, 클라이언트 그룹, 토픽 공간, 권한 바인딩, 라우팅을 비롯한 기타 구성**을 기본 지역과 보조 지역 간에 복제하는 사용자 지정(수동 또는 자동화된) 프로세스를 구현합니다.
엔드포인트에서 상태 검사를 수행하여 클라이언트에 기본 및 보조 엔드포인트를 제공하는 컨시어지 서비스를 구현합니다. 안내자 서비스는 DNS-리디렉션 기술(예: Azure Traffic Manager)을 사용하여 복제되고 연결을 유지할 수 있는 웹 애플리케이션입니다.
메타데이터를 복제하고 네임스페이스 전체에 부하를 분산시켜 활성-활성 DR 솔루션을 구현합니다. 기본 네임스페이스를 사용할 수 없는 경우 트래픽을 보조 네임스페이스로 보낼 수 있도록 메타데이터를 복제한 후 보조 네임스페이스를 준비 상태로 유지하여 활성-수동 DR 솔루션을 달성할 수 있습니다.
재해 복구 설정
쌍으로 연결된 지역의 경우 Event Grid는 사용자 지정 항목, 시스템 항목 및 도메인에 대해 쌍으로 연결된 지역으로 게시 트래픽을 장애 조치(failover)하는 기능을 제공합니다. 뒤에서 Event Grid는 항목, 시스템 항목, 도메인 및 이벤트 구독의 리소스 정의를 쌍을 이루는 지역에 자동으로 동기화합니다. 그러나 이벤트 데이터는 쌍을 이루는 지역에 복제되지 않습니다. 정상 상태에서 이벤트는 해당 리소스에 대해 선택한 지역에 저장됩니다. 지역 중단이 발생하고 Microsoft가 장애 조치(failover)를 시작하면 새 이벤트가 지리적으로 연결된 지역으로 흐르기 시작하고 사용자 개입 없이 해당 지역에서 발송됩니다. 원래 지역에서 게시되고 수락된 이벤트는 중단이 완화된 후 해당 지역에서 발송됩니다.
Microsoft가 시작한 장애 조치(failover)와 고객이 시작한 두 가지 장애 조치(failover) 옵션 중에서 선택할 수 있습니다. 두 설정을 모두 구성하는 방법에 대한 자세한 단계는 데이터 보존 구성을 참조하세요.
Microsoft 시작 장애 조치(failover)는 해당 지역의 Event Grid 리소스를 상응하는 지역 쌍 지역으로 장애 조치(failover)하는 드문 상황에서 Microsoft에 의해 실행됩니다. Microsoft는 이 옵션이 행사되는 시기를 결정할 권리를 보유합니다. 이 메커니즘에는 사용자의 트래픽이 장애 조치(failover)되기 전 사용자 동의가 포함되지 않습니다.
항목 또는 도메인의 구성을 업데이트하여 이 기능을 사용하도록 설정합니다. Microsoft가 시작한 장애 조치(failover)를 사용하도록 설정하려면 지역 간(기본값)을 선택합니다.
고객 시작 장애 조치(failover)는 Azure Event Grid 항목 및 도메인에 대한 사용자 지정 재해 복구 계획에 의해 정의되며, Microsoft는 어떤 종류의 데이터도 다른 지역에 복제하지 않습니다. 이 장애 조치(failover) 옵션은 약간의 활동이 필요하지만 더 빠른 장애 조치(failover)를 가능하게 하고 보조 지역 선택을 제어할 수 있습니다. Azure Event Grid 항목에 대한 클라이언트 쪽 재해 복구를 구현하려면 Azure Event Grid 항목에 대한 고유한 클라이언트 쪽 재해 복구 빌드를 참조하세요.
다음은 Microsoft에서 시작한 장애 조치(failover) 기능을 사용하지 않도록 설정하려는 몇 가지 이유입니다.
- Microsoft에서 시작한 장애 조치(failover)는 최선을 다해 수행됩니다.
- 일부 지역 쌍은 조직의 데이터 보존 요구 사항을 충족하지 않습니다.
항목 또는 도메인의 구성을 업데이트하여 이 기능을 사용하도록 설정합니다. 지역을 선택합니다.
쌍을 이지 않은 지역을 사용하는 경우 선택한 데이터 상주 구성에 관계없이 메타데이터는 지역 내에서만 복제됩니다.
재해 복구 장애 조치(failover) 환경
재해 복구는 RPO(복구 지점 목표)와 RTO(복구 시간 목표)라는 두 가지 메트릭으로 측정됩니다.
Event Grid의 자동 장애 조치(failover)에서는 메타데이터(토픽, 도메인, 이벤트 구독) 및 데이터(이벤트)에 대한 RPO 및 RTO가 다릅니다. 다음과는 다른 사양이 필요한 경우 자체적으로 토픽 상태 API를 사용하여 클라이언트 쪽 장애 조치를 계속 구현할 수 있습니다.
복구 지점 목표(RPO)
메타데이터 RPO: 0분. 해당 리소스의 경우 리소스가 만들어지거나 업데이트되거나 삭제되면 리소스 정의가 지역 쌍에 동기식으로 복제됩니다. 장애 조치가 발생하면 메타데이터가 손실되지 않습니다.
데이터 RPO: 장애 조치(failover)가 발생하면 쌍을 이루는 지역에서 새 데이터가 처리됩니다. 영향을 받는 지역의 가동 중단이 완화되자마자 처리되지 않은 이벤트가 해당 지역에서 전달됩니다. 지역 복구에 이벤트에 설정된 수명 값보다 긴 시간이 필요한 경우 데이터가 삭제될 수 있습니다. 이러한 데이터 손실을 완화하려면 이벤트 구독에 대해 데드 레터 대상을 설정하는 것이 좋습니다. 영향을 받은 지역이 손실되어 복구할 수 없는 경우 일부 데이터가 손실됩니다. 최상의 시나리오에서 구독자는 게시 속도를 유지하며 몇 초간의 데이터만 손실됩니다. 최악의 시나리오에서는 구독자가 이벤트를 적극적으로 처리하지 않으며 최대 수명이 24시간인 경우 데이터 손실이 최대 24시간일 수 있습니다.
RTO(복구 시간 목표)
메타데이터 RTO: 장애 조치(failover) 의사 결정은 쌍을 이루는 지역의 사용 가능한 용량과 같은 요소를 기반으로 하며 60분 이상 지속될 수 있습니다. 장애 조치(failover)가 시작되면 5분 이내에 Event Grid가 토픽 및 구독에 대한 만들기/업데이트/삭제 호출을 수락하기 시작합니다.
데이터 RTO: 위 정보와 동일합니다.
Important
- 서버 쪽 재해 복구의 경우 쌍을 이루는 지역에 추가 트래픽을 처리할 추가 용량이 없으면 Event Grid에서 장애 조치(failover)를 시작할 수 없습니다. 복구는 최선을 다해 수행됩니다.
- 이 기능 사용에는 요금이 부과되지 않습니다.
- 파트너 네임스페이스 및 파트너 항목에 대해서는 지리적 재해 복구가 지원되지 않습니다.