Azure Site Recovery를 사용하여 장애 조치 및 장애 복구

완료됨

조직은 Azure Site Recovery를 사용하여 유연하게 보조 Azure 지역으로 수동 장애 조치(failover)하거나 원본 VM으로 장애 조치(failover)할 수 있습니다. 이 프로세스를 관리하는 가장 간단한 방법은 Azure Portal에서 수동으로 관리하는 것입니다. 회사에서 장애 조치 트리거를 자동화하려는 경우 자동화를 사용하도록 설정하는 다른 옵션이 있습니다. 이 옵션에는 PowerShell을 통해 스크립팅하거나 장애 조치를 오케스트레이션하도록 Azure Automation에서 Runbook을 설정하는 등의 기술이 포함됩니다.

다음 단계에 따라 구독의 보조 지역으로 보호된 VM의 전체 장애 조치를 실행합니다. 장애 조치가 완료된 후에는 해당 VM을 장애 복구합니다.

이 단원에서는 장애 조치 및 장애 복구와 장애 조치된 VM을 다시 보호하고 다시 보호 상태를 모니터링하는 방법을 살펴봅니다.

장애 조치란?

사용할 수 없는 원본 지역 및 장애 조치되는 새 대상 환경을 보여 주는 다이어그램

장애 조치는 조직의 DR 계획을 실행하는 결정을 내릴 때 발생합니다. Site Recovery로 보호되는 기존 프로덕션 환경은 다른 지역으로 복제됩니다. 대상 환경은 실질적인 프로덕션 환경이 되며 조직의 프로덕션 서비스가 실행되는 환경이 됩니다. 대상 지역이 활성화된 후에는 더 이상 원본 환경을 사용하지 않아야 합니다. 원본 VM을 중지된 상태로 유지하면 이 조건이 적용됩니다.

원본 VM을 종료하는 또 다른 이점이 있습니다. 종료 VM을 사용하면 장애 조치를 트리거하기 전에 모든 데이터가 디스크에 기록될 때까지 Site Recovery가 대기하므로 데이터 손실이 최소화됩니다. 이 데이터를 사용하고 가능한 가장 낮은 RPO를 포함하려면 최신(가장 낮은 RPO) 복구 지점을 선택합니다.

장애 조치 옵션을 보여 주는 스크린샷

다시 보호란 무엇이며 왜 중요한가요?

VM이 장애 조치(failover)되면 Site Recovery에서 수행하는 복제가 더 이상 활성화되지 않습니다. 장애 조치된 VM 보호를 시작하려면 보호를 다시 사용하도록 설정해야 합니다. 이미 다른 지역에 인프라가 있으므로 다시 원본 지역에 대한 복제를 시작할 수 있습니다. 다시 보호를 사용하면 Site Recovery가 복제가 시작된 원본 환경으로 다시 새 대상 환경을 복제하기 시작할 수 있습니다.

단일 VM을 장애 조치(failover)하거나 복구 계획을 사용하여 장애 조치하는 유연성을 활용하여 장애 조치된 인프라를 다시 보호할 수 있습니다. 각 VM을 개별적으로 다시 보호하거나 복구 계획을 사용하여 여러 VM을 다시 보호할 수 있습니다.

다시 보호는 VM의 크기와 유형에 따라 45분~2시간이 걸립니다. 작업 진행률을 보면서 모니터링할 수 있는 다른 Site Recovery 프로세스와 달리, VM 수준에서 다시 보호 진행률을 확인해야 합니다. 동기화 단계가 사이트 복구 작업으로 나열되지 않기 때문에 이 요구 사항이 발생합니다.

이 이미지는 동기화된 백분율이 강조 표시된 보호된 항목의 상태를 보여 줍니다.

동기화된 백분율이 강조 표시된 patient-records VM의 상태를 보여 주는 스크린샷

장애 복구란?

장애 복구는 장애 조치의 역순 작업입니다. 보조 지역에 대한 완료된 장애 조치가 커밋되었고 현재는 프로덕션 환경인 경우입니다. 장애 조치된 환경에 대한 다시 보호가 완료되었고 이제는 원본 환경이 복제본입니다. 장애 복구 시나리오에서 Site Recovery는 다시 원본 VM으로 장애 조치됩니다.

장애 복구를 완료하는 프로세스는 복구 계획 재사용까지도 장애 조치와 동일합니다. 복구 계획에서 장애 조치를 선택하면 원본이 대상 지역으로 설정되고 대상이 원본 지역으로 설정됩니다.

장애 조치 관리

Site Recovery는 요청 시 장애 조치를 실행할 수 있습니다. 테스트 장애 조치는 격리되므로 프로덕션 서비스에 영향을 주지 않습니다. 이러한 유연성 덕분에 시스템 사용자를 방해하지 않고 장애 조치(failover)를 실행할 수 있습니다. 유연성은 계획된 테스트의 일부 또는 전체적으로 호출된 DR 프로세스의 일부로 요청 시 장애 복구를 허용하는 다른 방식으로도 작동합니다.

Site Recovery의 복구 계획을 사용하면 장애 조치 및 장애 복구를 사용자 지정하고 시퀀스를 지정할 수도 있습니다. 계획을 사용하여 머신과 워크로드를 그룹화할 수 있습니다.

장애 조치 프로세스를 트리거하는 방법에도 유연성이 적용될 수 있습니다. 수동 장애 조치는 Azure Portal을 통해 쉽게 수행할 수 있습니다. PowerShell 스크립팅 또는 Azure Automation의 Runbook 사용을 통해 자동화 옵션도 제공됩니다.

장애 조치 관련 문제 해결

Site Recovery가 자동화되더라도 오류가 발생할 수 있습니다. 다음 목록은 가장 자주 관찰되는 세 가지 문제를 보여 줍니다. 전체 문제 목록과 문제 해결 방법에 대해서는 요약 단원의 링크를 참조하세요.

Azure 리소스 할당량 문제

Site Recovery를 사용하려면 다양한 지역에서 리소스를 만들어야 합니다. 구독으로 이 작업을 수행할 수 없으면 복제에 실패합니다. 이 오류는 구독에 원본 VM의 크기와 일치하는 VM을 만들 수 있는 적절한 할당량 한도가 없는 경우에도 발생합니다.

Azure 청구 지원에 문의하여 필요한 대상 지역에 올바른 크기의 VM을 만들도록 요청하여 이 오류를 수정할 수 있습니다.

하나 이상의 디스크를 보호에 사용할 수 있습니다.

이 오류는 VM에 대한 Site Recovery 설정을 완료한 경우 발생합니다. 이후에 다른 디스크를 추가하거나 초기화했습니다.

이 오류를 해결하려면 새로 추가된 디스크에 대한 복제를 추가하거나 디스크 경고를 무시하도록 선택할 수 있습니다.

신뢰할 수 있는 루트 인증서

Site Recovery가 안전하게 복제를 위해 VM과 통신하고 VM을 인증할 수 있도록 최신 루트 인증서가 설치되어 있는지 확인합니다. VM에 최신 업데이트가 적용되지 않은 경우 이 오류가 표시될 수 있습니다. Site Recovery가 복제를 사용하도록 설정하기 전에 Windows 및 Linux VM을 모두 업데이트해야 합니다.

수정은 운영 체제별로 다릅니다. Windows의 경우 간단히 자동 Windows 업데이트를 켜면 업데이트가 적용됩니다. 각 Linux 배포의 경우 배포자가 제공하는 지침을 따라야 합니다.