재해 복구 훈련 실행

6분

이 단원에서는 Site Recovery 재해 훈련(고려해야 할 사항 및 구성이 올바른지 확인하기 위해 테스트를 실행하는 방법)에 대해 알아봅니다.

DR(재해 복구) 훈련을 사용하여 프로덕션 서비스에 영향을 주지 않고 중단으로부터 복구하는 조직의 역량을 테스트할 수 있습니다.

이전 연습에서 Azure Site Recovery 설정을 완료하고 이제 인프라 복제를 테스트해야 합니다. DR 훈련을 실행하여 구성을 테스트합니다. Azure Site Recovery를 사용하면 이러한 훈련을 안전하게 실행할 수 있으므로 프로덕션 환경에 영향을 주지 않습니다. 구성에 대한 품질 보증 테스트를 실행하여 DR 솔루션이 작동하는지 확인합니다.

재해 복구 훈련이란?

DR 훈련은 솔루션을 올바르게 구성했는지 확인하는 방법입니다. 사용자와 회사는 훈련을 통해 재해가 발생하는 경우에도 데이터 및 서비스를 사용할 수 있다는 것을 확신할 수 있습니다. 일반적으로 조직에서는 인프라를 복구하는 데 걸리는 시간을 나타내는 RTO(복구 시간 목표)를 설정합니다. 또한 회사는 시간의 함수로 허용되는 데이터 손실량을 결정하는 RPO(복구 지점 목표)도 정의해야 합니다. 예를 들어 회사의 RPO가 하루라면 매일 모든 데이터의 백업을 만들어야 합니다. 또한 이 백업을 복원하는 데 하루보다 짧게 걸리도록 해야 합니다.

실행된 장애 조치(failover) 테스트의 내역을 보여 주는 스크린샷.

DR 테스트가 실행되도록 Site Recovery는 Site Recovery 대시보드에서 DR 테스트를 실행할지 묻는 프롬프트를 적극적으로 표시합니다.

DR 훈련을 실행해야 하는 이유는 무엇인가요?

DR 훈련은 구현된 솔루션이 BCDR(비즈니스 연속성 및 재해 복구) 요구 사항을 충족하는지 확인하고 복제가 제대로 작동하는지 확인하는 데 필수적입니다. 필요한 기간에 복제, 장애 조치(failover) 및 장애 복구(failback)가 발생하도록 RTO 및 RPO와 결합된 DR 훈련을 철저하게 테스트해야 합니다.

예를 들어 RTO가 1시간이고 RPO가 6시간이라고 가정해 보겠습니다. 시스템이 1시간마다 백업되면 손실된 데이터에 해당하는 1시간과 시스템을 복구하는 추가 1시간을 의미합니다.

실제 복구 시간이 5시간이라고 가정해 보겠습니다. 시스템이 현재 6시간 이상 오래되어 BCDR RPO 목표를 위반하게 됩니다. 오류로부터 복구하는 데 걸리는 실제 시간을 테스트하면 시스템이 BCDR 계획을 따른다는 것을 확신할 수 있습니다.

개별 머신의 테스트 장애 조치

장애 조치(failover) 테스트를 통해 재해를 시뮬레이션하고 그 영향을 확인할 수 있습니다. Site Recovery 대시보드에서 장애 조치(failover) 테스트를 시작하거나 특정 VM의 재해 복구 메뉴에서 직접 시작할 수 있습니다. 복구 지점을 선택하여 시작합니다. 마지막으로 처리된 최신 앱 일치 지점 또는 사용자 지정 복구 지점을 선택할 수 있습니다.

장애 조치(failover) 테스트 만들기

프로덕션 인프라가 영향을 받지 않도록 분리된 가상 네트워크를 만듭니다. 이렇게 하려면 다음 단계를 수행하세요.

patient-records라는 대상 VM을 엽니다. 형식 == 가상 머신만 표시 하도록 모든 리소스를 필터링하여 쉽게 찾을 수 있습니다. 결과 목록에서 patient-records를 선택합니다.
리소스 메뉴에서 작업으로 스크롤한 다음 재해 복구를 선택합니다.
새 복제된 항목 창이 표시됩니다. 상태 필드에 보호됨이 표시될 때까지 새로 고침을 선택합니다. 그런 후, 위쪽 메뉴 모음에서 테스트 장애 조치를 선택합니다.
유효성 검사에 성공하면 Azure 가상 네트워크 드롭다운에서 가상 네트워크를 선택한 다음 테스트 장애 조치(failover) 단추를 선택합니다. 이 옵션을 선택하면 VM의 테스트 장애 조치(failover)를 실행하고, 알림 아이콘을 선택하고 가상 머신의 테스트 장애 조치(failover)를 수행하는 작업 시작 링크를 선택하여 Site Recovery 작업 페이지에서 진행률을 추적할 수 있습니다.
완료 후에는 장애 조치된 VM이 포털에서 해당 복구 지역의 Virtual Machines 아래에 나타납니다. 그런 다음, VM이 실행 중이고, 올바르게 크기가 조정되고 연결되었으며, 다른 Azure 지역의 원본 VM을 미러링하고 있는지 확인할 수 있습니다.
모든 것이 예상대로 작동하는지 유효성을 검사한 후 재해 복구 창에서 테스트 장애 조치(failover) 정리를 선택하여 복제된 VM을 삭제할 수 있습니다. 이 시점에서 테스트 결과에 대한 메모를 추가하는 것이 좋습니다. 테스트 장애 조치(failover) 가상 머신을 삭제하려면 테스트가 완료되었습니다 옆의 상자를 선택한 다음 확인을 선택합니다.

여러 머신의 유연한 장애 조치

Site Recovery는 모든 VM에 대한 전체 DR 테스트 시나리오를 실행할 수 있는 유연성을 제공합니다. 하나 이상의 VM을 포함하는 복구 계획을 만들 수 있습니다. 장애 조치는 원하는 만큼 여러 번 실행할 수 있으며, 다양한 인프라 조합을 테스트하는 유연한 정책을 허용합니다.

단일 VM을 테스트하는 것처럼 복구 계획에 포함된 모든 항목에 동일한 테스트 정리를 사용할 수 있습니다.

훈련과 프로덕션 장애 조치의 차이점

Site Recovery에서 프로덕션 장애 조치를 실행하는 것은 테스트 훈련 실행과 비슷합니다. 몇 가지 예외가 있으며, 첫 번째는 테스트 장애 조치(failover)가 아니라 장애 조치(failover)가 선택된다는 것입니다. 장애 조치를 시작하기 전에 원본 VM을 종료하도록 선택하면 전환하는 동안 데이터가 손실되지 않습니다. Site Recovery는 장애 조치가 완료된 후 원본 환경을 정리하지 않습니다.

장애 조치가 완료되면 VM이 예상대로 작동하는지 확인합니다. Site Recovery에서는 이 단계에서 복구 지점을 변경할 수 있습니다. 장애 조치의 작동에 만족하는 경우 장애 조치를 커밋합니다. Site Recovery는 모든 원본 VM 복구 지점을 삭제하고 장애 조치를 완료합니다. 보조 지역의 복제된 인프라 및 데이터와 함께 보조 지역의 새 VM도 보호해야 합니다.