다음을 통해 공유


재해 복구 전략 설계에 대한 권장 사항

이 Power Platform Well-Architected Reliability 체크리스트 권장 사항에 적용:

제목:07 복구 목표에 부합하는 구조화되고, 테스트되고, 문서화된 BCDR(비즈니스 연속성 및 재해 복구) 계획을 구현합니다. 계획은 모든 구성요소와 시스템 전체를 포괄해야 합니다.

이 가이드에서는 워크로드에 대한 안정적인 재해 복구 전략을 설계하기 위한 권장 사항을 설명합니다. 고객에게 보장한 내부 서비스 수준 목표(SLO) 또는 서비스 수준 계약(SLA)을 충족하려면 강력하고 안정적인 재해 복구 전략이 있어야 합니다. 실패 및 기타 주요 문제가 예상됩니다. 이러한 사고에 대처하기 위한 준비에 따라 귀하의 비즈니스가 고객에게 안정적으로 서비스를 제공할 수 있다고 고객이 얼마나 신뢰할 수 있는지가 결정됩니다. 재해 복구 전략은 주요 사고에 대비하는 중추입니다.

정의

용어 정의
장애 조치 사용할 수 없는 지역에서 영향을 받지 않는 지역으로 프로덕션 워크로드 트래픽을 자동 및/또는 수동으로 이동하는 것입니다.
장애 복구(failback) 프로덕션 워크로드 트래픽을 장애 조치(failover) 영역에서 프라이머리 영역으로 자동 및/또는 수동으로 전환합니다.

주요 디자인 전략

이 가이드에서는 안정성 계획의 일부로 다음 작업을 이미 수행했다고 가정합니다.

안정적인 워크로드 아키텍처는 안정적인 재해 복구(DR) 전략의 기초입니다. DR 전략 계획을 시작하기 전에 효율적인 복구에 필요한 구성 요소가 있는지 확인하기 위해 워크로드 생성의 모든 단계에서 안정성을 고려하세요. 이러한 기반을 통해 RTO(복구 시간 목표) 및 RPO(복구 지점 목표)와 같은 워크로드의 안정성 목표가 실용적이고 달성 가능하도록 보장됩니다.

재해 복구 계획 유지

워크로드에 대한 안정적인 DR 전략의 핵심은 DR 계획입니다. 계획은 환경 변화에 따라 정기적으로 수정되고 업데이트되는 살아있는 문서여야 합니다. 정기적으로(예: 6개월마다) 관련 팀(운영, 기술 리더십, 비즈니스 이해관계자)과 계획을 공유합니다. OneDrive와 같이 가용성이 높고 안전한 데이터 저장소에 보관하세요.

DR 계획을 개발하려면 다음 권장 사항을 따르세요.

  • 재해를 구성하는 요소와 DR 계획의 활성화가 필요한 요소를 명확하게 정의합니다.

    재난은 대규모 문제입니다. 지역별 정전, Microsoft Entra ID 또는 Azure DNS와 같은 서비스가 중단되거나 랜섬웨어 공격 또는 DDoS 공격과 같은 심각한 악성 공격이 발생할 수 있습니다.

    운영자가 실수로 DR 에스컬레이션을 호출하지 않도록 DR 계획에 단일 리소스의 가용성 또는 오류와 같이 재해로 간주되지 않는 오류 모드의 예를 포함합니다.

  • FMA 문서를 바탕으로 DR 계획을 수립하세요. DR 계획이 재해로 정의된 가동 중단에 대한 장애 모드 및 완화 전략을 포착하는지 확인하세요. 업데이트가 필요한 경우 DR 계획과 FMA 문서를 동시에 업데이트하여 환경이 변경되거나 테스트에서 예상치 못한 동작이 발견될 때 정확성을 유지하세요.

  • 워크로드 팀 내의 역할과 책임을 명확하게 정의하고 조직 내 관련 외부 역할을 이해합니다. Microsoft Entra ID와 같은 외부 서비스 중단으로 인해 재해가 발생한 경우 외부 당사자와의 통신을 담당하고 워크로드 팀과 업데이트를 공유할 수 있는 역할이 정의되어 있는지 확인하세요. 역할에는 다음이 포함되어야 합니다.

    • 재해를 선포할 책임이 있는 당사자
    • 사고 종료를 선포할 책임이 있는 당사자
    • 작업 역할
    • 테스트 및 유효성 검사 역할
    • 내부 및 외부 커뮤니케이션 역할
    • 회고적 및 근본 원인 분석(RCA) 리드 역할
  • 복구 상태가 이해관계자에게 전달되도록 워크로드 팀이 따라야 하는 에스컬레이션 경로를 정의합니다.

  • 최소한의 영향을 미치기 위해 워크로드 구성 요소를 복구해야 하는 규정된 순서를 포함합니다. 예를 들어 애플리케이션을 복구하기 전에 데이터베이스를 복구하고 클라우드 흐름을 다시 시작합니다.

    • 단계별 지침에 따라 각 구성 요소의 복구 절차를 자세히 설명합니다. 가능한 경우 스크린샷과 절차 실행을 위한 전제 조건을 포함합니다. 예를 들어 수집해야 하는 필수 스크립트 또는 자격 증명을 나열합니다.

    • 팀의 책임과 클라우드 호스팅 제공업체의 책임을 정의하세요. 예를 들어, Microsoft PaaS(Platform as a Service)를 복원하는 것은 사용자의 책임이지만, 데이터를 원상복구하고 해당 서비스에 구성을 적용하는 것은 사용자의 책임입니다.

    • 복구를 시작하기 전에 사고의 근본 원인을 파악하고 완화를 수행하세요. 예를 들어 사고의 원인이 보안 문제인 경우 장애 조치 환경에서 영향을 받은 시스템을 복구하기 전에 해당 문제를 완화하세요.

  • 장애 조치 환경에서 앱을 재배포해야 하는 경우 도구를 사용하여 배포 프로세스를 최대한 자동화하세요. 배포를 즉시 시작할 수 있도록 장애 조치(failover) 환경에서 Azure Pipelines가 사전 배포되고 올바르게 구성되었는지 확인하세요. 일관되고 효율적인 배포 프로세스를 보장하려면 필요한 경우 수동 승인 게이트와 함께 자동화된 엔드투엔드 배포를 사용하세요. 배포 프로세스 단계에서 수동 개입이 필요한 경우 수동 단계를 문서화합니다. 역할과 책임을 명확히 정의합니다.

  • 가능한 한 많은 절차를 자동화하세요. 손상된 작업으로 인해 멈춘 스크립트로 인해 시간을 낭비하지 않으려면 재시도 논리를 사용하세요. 이러한 스크립트는 긴급 상황에서만 실행되므로 잘못 개발된 스크립트로 인해 더 많은 피해가 발생하거나 복구 프로세스가 느려지는 것을 원하지 않습니다.

참고

자동화는 위험을 초래합니다. 숙련된 운영자는 자동화된 프로세스를 주의 깊게 모니터링하고 프로세스에 문제가 발생할 경우 개입해야 합니다. 자동화가 오탐지에 반응할 위험을 최소화하려면 DR 훈련을 철저히 수행하세요. 계획의 모든 단계를 테스트합니다. 탐지를 시뮬레이션하여 경고를 생성한 다음 전체 복구 절차를 진행합니다.

재해 복구 훈련 실시

좋은 DR 계획을 위해서는 DR 테스트 관행이 필수적입니다. 많은 업계에는 정기적인 DR 훈련을 요구하는 규정 준수 프레임워크가 있습니다. 업종에 관계없이 자주 DR 훈련을 수행하는 것이 성공에 매우 중요합니다.

성공적인 DR 훈련을 위해 다음 권장 사항을 따르세요.

  • 매년 최소 한 번 이상 생산 DR 훈련을 수행합니다. 모의 훈련이나 비생산 훈련은 관련 당사자가 자신의 역할과 책임을 숙지하는 데 도움이 됩니다. 이러한 훈련은 또한 운영자가 복구 프로세스를 따라 익숙해지는 데 도움이 됩니다. 그러나 생산 훈련만이 DR 계획과 RTO 및 RPO 지표의 유효성을 실제로 테스트합니다. 워크로드에 대해 정의된 RTO 및 RPO 목표를 달성할 수 있도록 생산 드릴을 사용하여 구성 요소 및 흐름에 대한 복구 프로세스 시간을 정하세요. Microsoft Entra ID 중단과 같이 제어할 수 없는 기능의 경우 해당 기능과 관련된 흐름의 RTO 및 RPO 목표가 제어할 수 없는 지연 가능성을 고려하는지 확인하세요.

  • 연습 실행 훈련을 사용하여 DR 프로세스 및 절차에 대해 새로운 운영자를 교육하세요. 고위 운영자는 새로운 운영자가 자신의 역할을 수행할 수 있도록 시간을 들여 개선 기회를 찾아야 합니다. 새로운 운영자가 절차의 한 단계에서 주저하거나 혼란스러워하는 경우 해당 절차를 검토하여 명확하게 작성되었는지 확인하세요.

고려 사항

프로덕션 환경에서 DR 드릴을 수행하면 예상치 못한 치명적인 오류가 발생할 수 있습니다. 초기 배포 중에 비프로덕션 환경에서 복구 절차를 테스트해야 합니다.

훈련 중에 팀에 가능한 한 많은 유지 관리 시간을 제공하세요. 유지 관리 시간을 계획할 때 테스트 중에 캡처한 복구 지표를 최소 필요한 시간 할당량으로 사용하세요.

DR 훈련 사례가 성숙해짐에 따라 병렬로 실행할 수 있는 절차와 순서대로 실행해야 하는 절차를 배우게 됩니다. 훈련 연습 초기에는 모든 절차를 순서대로 실행해야 하며 각 단계에서 예상치 못한 문제를 처리하기 위해 추가 시간이 필요하다고 가정합니다.

장애 조치(failover) 기능

Microsoft 비즈니스 애플리케이션은 Dynamics 365의 모든 생산 환경과 Power Platform 서비스형 소프트웨어(SAAS) 애플리케이션에 비즈니스 연속성 및 재해 복구(BCDR) 기능을 제공합니다. 지역적 중단 중에도 프로덕션 데이터의 복원력을 보장하는 방법 Microsoft 을 알아보세요.

안정성 체크리스트

전체 권장 사항 세트를 참조하세요.