Project Flash - Azure Virtual Machine 가용성 모니터링 발전
Flash라는 이름은 프로젝트 팀에서 알려진 것처럼 고객이 VM(가상 머신) 상태를 모니터링할 수 있는 강력하고 안정적이며 신속한 메커니즘을 구축하기 위한 확고한 노력을 의미합니다. 주요 목표는 고객이 실행 가능하고 정확한 원격 분석에 안정적으로 액세스하고, 변경 내용에 대한 경고를 즉시 수신하고, 정기적으로 대규모로 데이터를 모니터할 수 있도록 하는 것입니다. 또한 고객이 고유한 관찰 가능성 요구 사항을 충족하는 데 편리하게 사용할 수 있는 중앙 집중식 일관된 환경을 개발하는 데 중점을 둡니다. 다음을 수행할 수 있도록 하는 것이 우리의 임무입니다.
- VM 가용성 중단(예: VM 재부팅 및 다시 시작, 네트워크 드라이버 업데이트로 인한 애플리케이션 중지 및 30초 호스트 OS 업데이트)에 대한 정확하고 실행 가능한 데이터와 정확한 오류 세부 정보(예: 플랫폼 대 사용자 시작, 재부팅 대 동결, 계획되지 않은 경우)를 사용합니다.
- 빠른 디버깅 및 월별 보고를 위해 VM 가용성 추세를 분석 및 경고합니다.
- 대규모 데이터를 주기적으로 모니터하고 사용자 지정 대시보드를 빌드하여 모든 리소스의 최신 가용성 상태를 업데이트합니다.
- 영향을 받는 VM, 가동 중지 시간 원인 및 기간, 결과 수정 사항 및 유사한 모든 항목을 자세히 설명하는 자동화된 RCA(근본 원인 분석)를 받아 대상 조사 및 사후 분석을 구현합니다.
- 신속하게 수정 작업을 트리거하고 최종 사용자의 영향을 방지하기 위해 VM 가용성의 중요한 변경에 대한 즉각적인 알림을 받습니다.
- 끊임없이 변화하는 워크로드 민감도 및 장애 조치(failover) 요구 사항에 따라 플랫폼 복구 정책을 동적으로 조정하고 자동화합니다.
Flash 솔루션
Flash 이니셔티브는 고객의 다양한 모니터링 요구를 충족하는 솔루션을 개발하는 데 전념하고 있습니다. 특정 요구 사항에 가장 적합한 Flash 모니터링 솔루션을 결정하는 데 도움이 되는 다음 표를 참조하세요.
솔루션 | 설명 |
---|---|
Azure Resource Graph(일반 공급) | 규모가 큰 조사, 중앙 집중식 리소스 리포지토리 및 기록 조회를 위해 대규모 고객은 ARG(Azure Resource Graph)를 사용하여 모든 워크로드에서 리소스 가용성 원격 분석을 주기적으로 사용하고자 합니다. |
Event Grid 시스템 토픽(공개 미리 보기) | 최종 사용자 영향을 방지하기 위해 시간에 민감하고 중요한 완화(다시 배포, VM 작업 다시 시작)를 트리거하기 위해 고객(예: Pearl Abyss, Krafton)은 Event Grid의 이벤트 처리기를 통해 리소스 가용성이 매우 변경된 후 몇 초 이내에 경고를 수신하고자 합니다. |
Azure Monitor(공개 미리 보기) | 추세를 추적하고 플랫폼 메트릭(CPU, 디스크 등)을 집계하고 정확한 임계값 기반 경고를 설정하기 위해 고객은 Azure Monitor를 통해 기본 VM 가용성 메트릭을 사용하고자 합니다. |
Resource Health(일반 공급) | 리소스별로 즉각적이고 편리한 포털 UI 상태 검사를 수행하기 위해 고객이 포털에서 RHC 블레이드를 빠르게 볼 수 있습니다. 빠르고 쉬운 문제 해결을 위해 해당 리소스에 대한 상태 검사의 30일 기록 보기에도 액세스할 수 있습니다. |
종합 VM 가용성 모니터링
일상적인 유지 관리, 실시간 마이그레이션, 서비스 복구 및 VM 저하 시나리오를 포함하여 VM 가용성을 모니터링하는 전체적인 접근 방식을 위해서는 예약된 이벤트 SE(예약 이벤트)와 Flash 상태 이벤트를 모두 사용하는 것이 좋습니다.
예약된 이벤트는 유지 관리 활동에 앞서 최대 15분 전 사전 알림을 통해 조기 경고를 제공하도록 설계되었습니다. 이 리드 타임을 통해 예정된 가동 중지 시간에 대해 정보에 입각한 결정을 내릴 수 있으므로 회피하거나 대비할 수 있습니다. 향후 유지 관리 준비에 따라 이 15분 동안 해당 이벤트를 승인하거나 작업을 지연할 수 있는 유연성이 확보됩니다.
반면 Flash Health 이벤트는 VM 성능 저하를 포함하여, 진행 중 및 완료 상태인 가용성 중단을 실시간으로 추적하는 데 초점을 맞춥니다. 이 기능을 사용하면 가동 중지 시간을 효과적으로 모니터링하고 관리하여 자동화된 완화, 조사 및 사후 분석을 지원할 수 있습니다.
관찰 활용을 시작하기 위해 고품질의 VM 가용성 데이터를 내보내는 Azure 제품 제품군을 탐색할 수 있습니다. 이러한 제품에는 리소스 상태, 활동 로그, Azure Resource Graph, Azure Monitor 메트릭 및 Azure Event Grid 시스템 토픽 등이 있습니다.
다음 단계
제공되는 솔루션에 대해 자세히 알아보려면 해당 솔루션 문서를 계속 진행합니다.
- Azure Resource Graph를 사용하여 Azure Virtual Machine 가용성 모니터링
- Event Grid 시스템 토픽을 사용하여 Azure Virtual Machine 가용성 모니터링
- Azure Monitor를 사용하여 Azure Virtual Machine 가용성 모니터링
- Azure Resource Health를 사용하여 Azure Virtual Machine 가용성 모니터링
Azure Virtual Machines를 모니터링하는 방법에 대한 일반적인 개요는 Azure 가상 머신 모니터링 및 Azure 가상 머신 모니터링 참조를 확인하세요.