다음을 통해 공유


Microsoft 365의 데이터 모니터링 및 자가 복구

Microsoft 365의 규모를 감안할 때, 포괄적이고 지능적인 경고 및 빠르고 신뢰할 수 있는 자가 복구를 제공하는 기본 제공 모니터링 없이는 맬웨어로부터 고객 데이터를 복원력과 안전하게 유지하는 것은 불가능합니다. Microsoft 365 규모로 서비스 집합을 모니터링하는 것은 어려운 일입니다. 새로운 사고방식과 방법론을 도입해야 했으며, 연결된 글로벌 환경에서 서비스를 운영하고 관리하기 위해 새로운 기술 세트를 만들어야 했습니다. 데이터 수집 및 필터링의 기존 모니터링 접근 방식에서 벗어나 데이터 분석을 기반으로 하는 접근 방식에 대한 경고를 만들었습니다. 신호를 받고 해당 데이터에 대한 신뢰를 구축한 다음 자동화를 사용하여 문제를 복구하거나 해결합니다. 이 방법은 인간을 복구 방정식에서 벗어나는 데 도움이 되며, 이로 인해 작업이 더 저렴하고 빠르며 오류가 발생하기 쉽습니다.

Microsoft 365 모니터링의 기본 사항은 Azure, SQL Azure 및 오픈 소스 스트리밍 데이터베이스 기술을 기반으로 하는 Data Insights 엔진을 구성하는 기술 모음입니다. 데이터를 수집하고 집계하고 결론에 도달하도록 설계되었습니다. 현재는 많은 지역의 수십 개의 데이터 센터에 분산된 100,000대 이상의 서버(하루에 최대 15TB)에서 시간당 5억 개 이상의 이벤트를 처리하고 있으며, 이러한 수는 증가하고 있습니다.

Microsoft 365는 중요한 모든 것을 테스트하기 위해 가상 트랜잭션을 만드는 것을 포함하는 외부 모니터링을 사용합니다. 예를 들어 Exchange에서 각 시나리오는 5분마다 전 세계 모든 데이터베이스를 분산된 방식으로 테스트하여 시스템에 있는 모든 데이터베이스를 거의 지속적으로 검사합니다. 여러 위치에서 하루에 2억 5천만 개의 테스트 트랜잭션이 수행되어 서비스에 대한 강력한 기준 또는 하트비트를 만듭니다.

Microsoft 365는 또한 데이터 센터의 모든 컴퓨터에서 인간이 관리할 수 있는 것으로 모든 모니터링 신호를 축소하는 Red Alert의 개념을 사용합니다. 개념은 간단합니다. 여러 신호에서 어떤 일이 발생하는 경우 어떤 일이 일어나고 있어야 합니다. 그것은 하나의 신호에 대한 신뢰를 구축에 관한 것이 아니라, 당신이 더 큰 정확도를 얻을 수 있도록 각 신호에 대한 합리적인 충실도를 갖는 것에 관한 것입니다. 이 모니터링 시스템은 매우 강력하여 모니터를 감시하는 24x7 직원이 없습니다. 우리가 가진 것은 문제가 감지되면 깨어나는 기계뿐이며, 이 경우 적절한 통화 담당자를 페이징하거나 더 자주 그 경우처럼 진행하여 문제를 해결합니다. 신호를 수집하고 적색 경고를 빌드하기 시작하면 모든 서비스 파티션에서 삼각측정을 시작할 수 있습니다.

오류 경고와 빨간색 경고의 조합에 따라 이 경고는 문제가 발생할 수 있는 구성 요소를 정확히 나타내며, 시스템에서 사서함 서버를 다시 시작하여 자체적으로 문제를 해결하려고 합니다.

Exchange에는 단일 페이지 복원과 같은 자체 복구 기능 외에도 모니터링 및 자가 복구에 대한 접근 방식을 취하는 몇 가지 기능이 포함되어 있으며, 이 기능은 최종 사용자 환경을 유지하는 데 중점을 둡니다. 이러한 기능에는 기본 제공 모니터링 및 복구 작업을 제공하는 관리되는 가용성과 디스크 오류 후 데이터베이스 중복성을 자동으로 복원하는 AutoReseed가 포함됩니다.

관리되는 가용성

관리되는 가용성은 복구 지향 작업을 통해 최종 사용자의 환경을 모니터링하고 보호하는 네이티브 상태 검사 및 복구 솔루션을 제공합니다. 관리되는 가용성은 Exchange 고가용성 플랫폼과 기본 제공 모니터링 및 복구 작업의 통합입니다. 이 기능은 문제가 발생하여 시스템에서 검색되면 바로 복구를 진행하도록 설계되었습니다. 이전의 Exchange용 외부 모니터링 솔루션 및 기술과 달리, 관리되는 가용성은 문제의 근본 원인을 식별하고 전달하려고 하지 않습니다. 대신 최종 사용자 환경의 세 가지 주요 영역을 해결하는 복구 측면에 중점을 줍니다.

  • 가용성 - 사용자가 서비스에 액세스할 수 있나요?
  • 대기 시간 - 사용자의 환경은 어떻게 합니까?
  • 오류 - 사용자가 원하는 것을 수행할 수 있나요?

관리되는 가용성은 Exchange를 실행하는 모든 Microsoft 365 서버에서 실행되는 내부 기능입니다. 이 프로세스에서는 초당 수백 개의 상태 메트릭을 폴링 및 분석합니다. 문제가 발견되면 대부분의 경우 자동으로 수정됩니다. 그러나 관리되는 가용성이 자체적으로 해결할 수 없는 문제가 항상 있을 것입니다. 이러한 경우 관리되는 가용성은 이벤트 로깅을 통해 문제를 Microsoft 365 지원 팀으로 에스컬레이션합니다.

AutoReseed

Exchange 서버는 여러 데이터베이스와 해당 로그 스트림을 동일한 비 RAID 디스크에 저장하는 구성으로 배포됩니다. RAID와 같은 스토리지 중복 메커니즘이 디스크의 데이터를 복제하는 데 사용되지 않으므로 이 구성을 JBOD(디스크 무리)라고도 합니다. JBOD 환경에서 디스크가 실패하면 해당 디스크의 데이터가 손실됩니다.

Exchange의 크기와 그 안에 배포된 디스크 드라이브가 수백만 개라는 사실을 감안할 때 디스크 드라이브 오류는 Exchange에서 정기적으로 발생합니다. 실제로 매일 100개 이상의 오류가 발생합니다. 온-프레미스 엔터프라이즈 배포에서 디스크가 실패하는 경우 관리자는 실패한 디스크를 수동으로 교체하고 영향을 받는 데이터를 복원해야 합니다. 클라우드 배포에서 Microsoft 365의 크기는 운영자(클라우드 관리자)가 디스크를 수동으로 교체하는 것은 실용적이거나 경제적으로 실현 가능하지 않습니다.

자동 Reseed 또는 AutoReseed는 디스크 오류, 데이터베이스 손상 이벤트 또는 데이터베이스 복사본의 재시딩이 필요한 기타 문제에 대응하여 일반적으로 연산자 기반 작업을 대체하는 기능입니다. AutoReseed는 디스크 오류가 발생한 후 시스템에 프로비전된 예비용 디스크를 사용하여 데이터베이스 중복성을 자동으로 복원하기 위한 것입니다. 디스크가 실패하면 해당 디스크에 저장된 데이터베이스 복사본이 서버의 미리 구성된 예비 디스크에 자동으로 다시 저장되어 중복성이 복원됩니다.