안정적인 모니터링 및 알림 전략을 설계하기 위한 권장 사항
Power Platform Well-Architected 안정성 체크리스트 권장 사항에 적용됩니다.
RE:08 | 솔루션의 상태 지표를 측정하고 게시합니다. 워크로드 전체와 개별 구성 요소 및 주요 흐름에서 가동 시간 및 기타 안정성 데이터를 지속적으로 캡처합니다. |
---|
이 가이드에서는 안정적인 모니터링 및 경고 전략을 설계하기 위한 권장 사항을 설명합니다. 운영 팀에 환경 상태에 대한 정보를 지속적으로 제공하고 워크로드에 대해 설정된 안정성 목표를 충족하려면 이 전략을 구현하십시오.
정의
용어 | 정의 |
---|---|
메트릭 | 일정한 간격으로 수집되는 숫자 값입니다. 메트릭은 특정 시간에 시스템의 일부 측면을 설명합니다. |
리소스 로그 | 시스템이 시스템 상태에 대해 생성하는 데이터입니다. |
추적 | 요청이 서비스 및 구성 요소를 통해 이동하는 경로에 대한 정보를 제공하는 데이터입니다. |
주요 디자인 전략
모니터링 및 경고 전략을 생성하기 전에 안정성 계획의 일부로 워크로드에 대해 다음 작업을 수행하십시오.
중요한 흐름과 중요하지 않은 흐름을 식별합니다.
흐름에 대해 장애 모드 분석(FMA)을 수행합니다.
안정성 목표를 식별합니다.
강력한 테스팅 전략을 디자인합니다.
모니터링 및 경고 전략을 만들어 운영 팀에 인식을 제공하여 워크로드 상태의 변화를 알리고 문제를 신속하게 해결할 수 있도록 하세요. 중요한 흐름과 중요한 흐름을 포함하는 워크로드의 상태 모델은 정상, 성능 저하 및 비정상 상태를 정의해야 합니다. 이러한 상태의 변화를 즉시 포착할 수 있도록 모니터링 태세를 설계하세요. 상태가 정상에서 저하 또는 비정상으로 변경되면 경고 메커니즘이 자동 복구 조치를 실행하고 담당 팀에 경고를 보내야 합니다.
비즈니스 요구 사항을 충족하는 모니터링 및 경고 전략을 설계하려면 다음 권장 사항을 구현하십시오.
일반 지침
모든 클라우드 리소스에 대해 로깅을 활성화합니다. 배포에 자동화 및 거버넌스를 사용하여 환경 전체에서 진단 로깅을 활성화합니다.
모든 진단 로그를 Log Analytics 작업 영역과 같은 중앙 집중식 데이터 싱크 및 분석 플랫폼으로 전달합니다. 지역 데이터 주권 요구 사항이 있는 경우 해당 요구 사항이 적용되는 지역에서 로컬 데이터 싱크를 사용해야 합니다.
트레이드오프: 로그를 저장하고 쿼리하는 데 비용이 많이 듭니다. 로그 분석 및 보존이 예산에 어떤 영향을 미치는지 확인하고 요구 사항을 충족하는 최적의 활용도 균형을 결정하세요.
워크로드에 하나 이상의 규정 준수 프레임워크가 적용되는 경우 중요한 정보를 처리하는 일부 구성 요소 로그에도 해당 프레임워크가 적용됩니다. 관련 구성 요소 로그를 Microsoft Sentinel과 같은 SIEM(보안 정보 및 이벤트 관리) 시스템으로 보냅니다.
규정 준수 프레임워크가 워크로드에 부과하는 장기 보존 요구 사항을 통합하는 로그 보존 정책을 만듭니다.
모든 로그 메시지에 대해 구조화된 로깅을 사용하여 로그 데이터 쿼리를 최적화합니다.
값이 녹색에서 노란색 또는 빨간색으로 변경되는 등 상태 모델 상태 변경과 관련된 중요 임계값을 통과할 때 트리거되도록 경고를 구성합니다. 임계값 구성은 지속적인 개선을 위한 관행입니다. 워크로드가 발전함에 따라 정의하는 임계값이 변경될 수 있습니다.
운영 팀이 향후 참조를 위해 이러한 이벤트를 추적할 수 있도록 빨간색에서 노란색으로 또는 빨간색에서 녹색으로 상태가 개선될 때 경고를 사용하는 것이 좋습니다.
사용자 지정 대시보드를 사용하여 환경의 실시간 상태를 시각화합니다.
사고 중에 수집된 데이터를 사용하여 상태 모델을 지속적으로 개선하세요.
플랫폼 수준 상태를 포함하여 클라우드 플랫폼 모니터링 및 경고 서비스를 통합합니다.
Azure Monitor 인사이트 도구와 같이 클라우드 공급자가 제공하는 특수 목적의 고급 모니터링 및 분석을 통합하세요.
다음을 캡처하기 위해 백업 및 복구 모니터링을 구현합니다.
- 워크로드가 대상 RPO(복구 지점 목표) 내에서 복구되도록 보장하는 데이터 복제 상태입니다.
- 성공 및 실패한 백업 및 복구.
- 재해 복구 계획을 알려주는 복구 기간입니다.
응용 프로그램 및 에이전트 모니터링
응용 프로그램 또는 에이전트가 프로덕션 환경에서 실행되는 동안 데이터를 기록합니다. 프로덕션 상태의 문제 원인을 진단하기 위해서는 충분한 정보가 필요합니다.
서비스 경계에서 이벤트를 기록합니다. 서비스 경계를 넘어 흐르는 상관 관계 ID를 포함합니다. 트랜잭션이 여러 서비스를 통해 진행되고 그 중 하나가 실패하는 경우 상관 관계 ID는 애플리케이션 전체에서 요청을 추적하고 트랜잭션이 실패한 이유를 정확히 찾아내는 데 도움이 됩니다.
응용 프로그램 및 에이전트 로깅을 감사와 분리합니다. 감사 레코드는 규정 준수 또는 규제 요구 사항에 대해 일반적으로 유지 관리되며 완전해야 합니다. 트랜잭션 삭제를 방지하려면 진단 로그와 별도로 감사 로그를 유지 관리하세요.
화이트 박스 모니터링을 사용하여 의미 체계 로그 및 메트릭이 있는 애플리케이션 또는 에이전트를 계측합니다. 애플리케이션 또는 에이전트에서 메모리 사용량 또는 요청 대기 시간과 같은 애플리케이션 및 에이전트 수준 메트릭과 로그를 수집하여 상태 모델에 알리고 문제를 감지 및 예측합니다.
블랙박스 모니터링을 사용하여 플랫폼 서비스와 그에 따른 고객 경험을 측정하세요. 블랙박스 모니터링은 시스템 내부에 대한 지식 없이 외부에서 볼 수 있는 애플리케이션 또는 에이전트 동작을 테스트합니다. 이 접근 방식은 고객 중심 서비스 수준 지표(SLI), 서비스 수준 목표(SLO) 및 서비스 수준 계약(SLA)을 측정하는 데 일반적입니다.
데이터 및 스토리지 모니터링
스토리지 컨테이너의 가용성 메트릭을 모니터링합니다. 이 메트릭이 100% 미만으로 떨어지면 쓰기 실패를 나타냅니다. 클라우드 공급자가 로드를 관리할 때 일시적인 가용성 저하가 발생할 수 있습니다. 가용성 추세를 추적하여 워크로드에 문제가 있는지 확인하세요. 경우에 따라 스토리지 컨테이너의 가용성 메트릭이 감소하는 것은 스토리지 컨테이너와 연결된 컴퓨팅 계층의 병목 현상을 나타냅니다.
데이터베이스를 모니터링할 메트릭이 많이 있습니다. 안정성 측면에서 모니터링해야 할 중요한 메트릭은 다음과 같습니다.
- 쿼리 기간
- 시간 제한
- 대기 시간
- 메모리 부족
- 잠금
Power Platform 간편 사용
Power Platform은 Application Insights와 통합되며, 이는 Azure Monitor 에코시스템의 일부입니다. 이 통합을 사용하여 할 수 있는 작업:
Dataverse 데이터베이스 및 모델 기반 앱 내에서 애플리케이션이 수행하는 진단, 성능 및 작업에 대해 Application Insights의 Dataverse 플랫폼이 캡처한 원격 측정을 구독하세요. 이 원격 분석은 오류 및 성능과 관련된 문제를 진단하고 해결하는 데 사용할 수 있는 정보를 제공합니다.
캔버스 앱을 Application Insights에 연결하여 이러한 분석을 사용하여 문제를 진단하고, 사용자가 실제로 앱에 무엇을 하는지 파악하고, 비즈니스 결정을 개선하고, 앱의 품질을 개선할 수 있습니다.
Application Insights로 흐르도록 Power Automate 원격 분석을 구성합니다. 이 원격 분석을 사용하여 클라우드 흐름 실행을 모니터링하고 클라우드 흐름 실행 실패에 대한 경고를 생성할 수 있습니다.
Microsoft Copilot Studio 에이전트에서 원격 분석 데이터를 수집하여 Azure Application Insights에서 사용합니다. 이 원격 분석을 사용하여 에이전트와 주고받는 기록된 메시지 및 이벤트, 사용자 대화 중에 트리거되는 주제 및 주제에서 보낼 수 있는 사용자 지정 원격 분석 이벤트를 모니터링할 수 있습니다.
Power Platform은 Microsoft Purview 컴플라이언스 포털에 로그 작업을 리소스합니다. 대부분의 이벤트는 활동 후 24시간 이내에 이용 가능합니다. 실시간 모니터링에는 이 정보를 사용하지 마세요. Power Platform의 활동 로깅에 대한 자세한 내용은 다음을 참조하세요.
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform 커넥터
- 데이터 손실 방지
- Power Platform 관리 로그
- Dataverse 감사
Power Platform 워크로드에는 Azure 리소스가 포함될 수 있습니다. Azure 리소스에 대한 모니터링 권장 사항에 대해 자세히 알아보려면 모니터링 시스템 설계 및 생성을 위한 권장 사항을 참조하세요.
Power Platform CoE 시작 키트는 Power Platform 채택 및 지원 전략 개발을 시작하는 데 도움이 되도록 설계된 구성 요소 및 도구 모음을 포함하는 참조 구현입니다. 이 키트에서는 팀이 CoE를 지원하는 데 필요한 모니터링 및 자동화를 구축할 수 있도록 자동화 및 도구를 제공합니다.
관련 정보
안정성 체크리스트
전체 권장 사항 세트를 참조하세요.