다음을 통해 공유


모니터링 시스템 설계 및 생성에 대한 권장 사항

Power Platform Well-Architected 운영 효율성 체크리스트 권장 사항에 적용됩니다.

OE:06 모니터링 시스템을 설계 및 구현하여 설계 선택을 검증하고 향후 설계 및 비즈니스 결정을 알립니다. 이 시스템은 워크로드에서 내보낸 운영 원격 분석, 메트릭 및 로그를 캡처하고 노출합니다.

이 가이드에서는 모니터링 시스템을 설계하고 생성하기 위한 권장 사항을 설명합니다. 보안, 성능 및 안정성을 위해 워크로드를 효과적으로 모니터링하려면 모든 모니터링, 탐지 및 경고 기능의 기반을 제공하는 자체 스택을 갖춘 포괄적인 시스템이 필요합니다.

정의

용어 정의
로그 기록된 시스템 이벤트. 로그에는 구조화된 텍스트 형식이나 자유 형식 텍스트 형식의 다양한 유형의 데이터가 포함될 수 있습니다. 타임스탬프가 포함되어 있습니다.
메트릭 일정한 간격으로 수집되는 숫자 값입니다. 메트릭은 특정 시간에 시스템의 일부 측면을 설명합니다.

주요 디자인 전략

워크로드에 대한 포괄적인 모니터링 시스템 설계를 구현하려면 다음 핵심 원칙을 따르십시오.

  • 가능할 때마다 일반적으로 구성이 거의 필요하지 않고 다른 방법으로는 얻기 어려울 수 있는 워크로드에 대한 심층적인 인사이트를 제공할 수 있는 플랫폼 제공 모니터링 도구를 활용합니다.

  • 전체 워크로드 스택에서 로그와 메트릭을 수집합니다. 모든 로우코드 및 코드 우선 구성 요소와 리소스는 표준화되고 의미 있는 데이터를 생성하도록 구성되어야 하며 해당 데이터를 수집해야 합니다.

  • 수집된 데이터를 표준화되고 안정적이며 안전한 스토리지 솔루션에 저장하세요.

  • 저장된 데이터를 분석 및 시각화 솔루션으로 처리할 수 있도록 처리합니다.

  • 처리된 데이터를 분석하여 워크로드 상태를 정확하게 파악합니다.

  • 워크로드 팀 및 기타 이해 관계자를 위한 의미 있는 대시보드 또는 보고서에서 워크로드 상태를 시각화합니다.

  • 문제가 발생할 때 워크로드 팀에 알리기 위해 지능적으로 정의된 임계값에 대한 실행 가능한 경고 및 기타 자동 응답을 구성합니다.

  • 전체 워크로드 테스트 사례에 모니터링 및 경고 시스템을 포함합니다.

  • 모니터링 및 경고 시스템이 지속적인 개선 범위에 있는지 확인하십시오. 프로덕션에서의 애플리케이션 및 구성 동작은 지속적인 학습 기회를 제공합니다. 이러한 교훈을 모니터링 및 경고 설계에 통합하세요.

  • 수집하여 분석한 모니터링 데이터를 시스템과 사용자 흐름에 연결하여 흐름의 상태와 데이터의 상관관계는 물론, 작업 부하의 전반적인 상태도 파악합니다. 흐름에 따라 데이터를 분석하면 관찰성 전략을 상태 모델에 맞추는 데 도움이 됩니다.

  • 법률 및 규정을 준수할 수 있도록 식별 가능한 정보의 저장을 최소화하십시오. 식별 가능한 정보를 저장해야 하는 경우 솔루션을 디자인할 때 개인이 자신의 정보를 삭제하도록 요청할 수 있는 요구 사항을 고려해야 합니다.

  • ID 사기를 저지르는 데 사용될 수 있는 사용자 암호나 기타 정보를 절대 기록하지 마십시오. 데이터를 저장하기 전에 데이터에서 이러한 세부 정보를 삭제하세요. 규정 요구 사항에 따라 감사 및 보안을 위해 수집된 정보를 보관하고 저장해야 할 수도 있습니다. 이 데이터는 또한 중요하므로 변조를 방지하기 위해 암호화하거나 보호해야 할 수도 있습니다.

모니터링 시스템의 모든 기능을 최대한 자동화해야 하며, 모두 하루 종일, 매일 지속적으로 실행되어야 합니다.

이 워크플로 파이프라인은 모니터링 시스템을 보여줍니다.

종합 모니터링 시스템의 단계를 파이프라인으로 나타낸 다이어그램입니다.

컬렉션

로우 코드 또는 코드 우선 구성 요소이든 환경 및 정책과 같은 플랫폼 설정이든 관계없이 모든 워크로드 구성 요소를 구성하여 로그 및 메트릭과 같은 원격 분석 및 이벤트를 캡처해야 합니다.

로그는 주로 이상 현상을 감지하고 조사하는 데 유용합니다. 일반적으로 로그는 워크로드 구성 요소에 의해 생성된 다음 모니터링 플랫폼으로 전송되거나 자동화를 통해 모니터링 플랫폼에서 가져옵니다.

메트릭은 주로 상태 모델을 구축하고 워크로드 성능 및 안정성 추세를 식별하는 데 유용합니다. 메트릭은 사용자의 사용 행동 경향을 식별하는 데에도 유용합니다. 이러한 경향은 고객 관점에서 개선 사항에 대한 결정을 내리는 데 도움이 될 수 있습니다. 일반적으로 메트릭은 모니터링 플랫폼에서 정의되며 모니터링 플랫폼 및 기타 도구는 워크로드를 폴링하여 메트릭을 캡처합니다.

워크로드 데이터

기본 제공되는 Application Insights와의 통합을 사용하여 데이터를 수집하세요. Application Insights가 활성화되면 실시간 및 과거의 중요한 이벤트를 명확하게 확인할 수 있습니다.

응용 프로그램 로그는 종단 간 응용 프로그램 수명 주기를 지원합니다. 로깅은 애플리케이션이 다양한 환경에서 어떻게 작동하는지, 어떤 이벤트가 발생하는지, 이벤트가 발생하는 조건을 이해하는 데 필수적입니다.

모든 주요 환경에서 애플리케이션 로그 및 이벤트를 수집하는 것이 좋습니다. 가능한 경우 각 환경에 대해 서로 다른 데이터 저장소를 사용하여 환경 간에 데이터를 최대한 분리합니다. 필터를 사용하여 중요하지 않은 환경이 프로덕션 로그 해석을 복잡하게 만들지 않도록 하세요. 마지막으로 애플리케이션 전체의 해당 로그 항목은 해당 트랜잭션에 대한 상관 관계 ID를 캡처해야 합니다.

인프라 및 구성 데이터

워크로드의 인프라 리소스에 대해 로그와 메트릭을 모두 수집해야 합니다. Power Platform은 PaaS(서비스 제공 인프라) 제품이기 때문에 기본 인프라와 관련된 로그를 캡처하는 기능이 제한될 수 있습니다. 그러나 워크로드 상태 및 인시던트와 관련된 구성 및 정책 변경 사항에 대한 로그 및 분석을 캡처할 수 있습니다.

가능한 한 클라우드 플랫폼에서 로그를 수집하세요. 구독에 대한 활동 로그와 관리부에 대한 진단 로그를 수집할 수 있습니다.

성능 고려 사항

복잡하고 확장성이 뛰어난 애플리케이션은 엄청난 양의 데이터를 생성할 수 있습니다. 데이터 양은 애플리케이션 수준에서 추적이 얼마나 자세한지에 따라 성능 문제를 일으킬 수 있습니다. 원격 분석 솔루션은 병목 현상으로 작용해서는 안 되며 시스템이 확장됨에 따라 확장 가능해야 합니다.

분석

다양한 원본에서 데이터를 수집한 후 분석하여 시스템의 전반적인 상태를 평가합니다. 이 분석을 위해서는 다음 사항을 명확하게 이해해야 합니다.

  • KPI(핵심 성과 지표) 및 정의한 기타 성과 메트릭을 기반으로 데이터를 구조화하는 방법
  • 다양한 메트릭과 로그 파일에 캡처된 데이터를 상호 연관시키는 방법. 이 상관 관계는 일련의 이벤트를 추적할 때 중요하며 문제를 진단하는 데 도움이 될 수 있습니다.

대부분의 경우 워크로드에는 다양한 구성 요소가 있으며 로그 또는 이벤트는 다양한 형식이나 테이블로 캡처됩니다. 워크로드의 전반적인 상태를 이해하려면 데이터를 정확하게 결합해야 합니다.

예를 들어 Power Platform 솔루션은 다음과 같은 구성 요소로 구성될 수 있습니다.

  • 사용자가 데이터와 상호 작용할 수 있는 캔버스 앱
  • 관리자가 애플리케이션에 대한 설정을 구성할 수 있는 모델 기반 앱
  • 데이터 작업을 수행하는 클라우드 흐름
  • 작업과 연결된 데이터를 저장하는 Dataverse 인스턴스
  • Azure Table Storage에서 데이터를 검색하고 애플리케이션에서 호출되는 Azure 함수

단일 비즈니스 작업에 대한 사용량 데이터는 워크로드의 모든 구성 요소에 걸쳐 있을 수 있습니다. 작업에 대한 리소스 및 처리 사용량에 대한 전반적인 보기를 제공하려면 이 정보를 상호 연관시켜야 합니다.

데이터 분석을 위한 권장 사항

애플리케이션 수준 로그와 리소스 수준 로그를 연관시킵니다. 두 수준 모두에서 데이터를 평가하여 문제 감지 및 해결을 최적화합니다.

콜드 분석을 위해 보관 시 명확한 보존 시간을 정의합니다. 특정 기간에 대한 기록 분석을 활성화하려면 이 방법을 권장합니다. 또한 스토리지 비용을 제어하는 ​​데도 도움이 될 수 있습니다. 장기적인 추세 분석을 위해 데이터를 더 저렴한 스토리지에 보관하고 데이터를 집계하는 프로세스를 구현합니다.

장기적인 추세를 분석하여 운영 문제를 예측합니다. 장기적인 데이터를 평가하여 운영 전략을 수립하고 어떤 운영 문제가 언제 발생할지 예측합니다. 예를 들어, 시간이 지남에 따라 평균 응답 시간이 천천히 증가하고 최대 목표에 접근하고 있음을 알 수 있습니다.

시각화

상태 모니터링의 시각화는 워크로드 상태를 이해하는 데 중요합니다. 시각화는 문제와 추세를 빠르게 식별하는 데 도움이 될 수 있으며 워크로드에 대한 변경 내용의 영향을 이해하는 데도 도움이 될 수 있습니다.

대시보드

데이터를 시각화하는 가장 일반적인 방법은 차트 또는 그래프 형태로 정보를 표시할 수 있는 대시보드를 사용하는 것입니다. 이러한 항목은 매개 변수화될 수 있으며 분석가는 특정 상황에 대해 기간과 같은 중요한 매개 변수를 선택할 수 있습니다.

워크로드 또는 워크로드의 구성 요소가 정상인지, 성능이 저하되거나 비정상인지를 나타내도록 대시보드를 상태 모델에 맞게 조정합니다.

대시보드 시스템이 효과적으로 작동하려면 워크로드 팀에 의미가 있어야 합니다. 워크로드 상태와 관련되고 실행 가능한 정보를 시각화합니다. 워크로드 또는 구성 요소가 저하되거나 상태가 좋지 않은 경우 워크로드 팀 구성원은 워크로드에서 문제가 발생한 위치를 쉽게 식별하고 수정 조치 또는 조사를 시작할 수 있어야 합니다. 반대로, 실행 가능하지 않거나 워크로드 상태와 관련이 없는 정보를 포함하면 대시보드가 불필요하게 복잡해지고 실행 가능한 데이터에서 배경 소음을 식별하려는 팀 구성원에게 좌절감을 줄 수 있습니다.

관련성이 있다고 판단되는 워크로드에 대한 데이터만 표시하도록 사용자 지정된 이해 관계자 또는 개발자를 위한 대시보드가 ​​있을 수 있습니다. 워크로드 팀이 다른 팀이 보고 싶어하는 데이터 포인트의 유형을 이해하고 있는지 확인하고 명확성을 확인하기 위해 대시보드를 공유하기 전에 미리 봅니다. 이해 관계자에게 워크로드에 대한 대시보드를 제공하는 것은 이해 관계자에게 워크로드 상태를 계속 알리는 좋은 방법이지만 이해 관계자가 데이터를 명확하게 이해하지 못하는 경우 역효과를 낼 위험이 있습니다.

권한이 있는 직원만 대시보드에 접근할 수 있도록 제한하세요. 대시보드의 정보는 민감할 수 있습니다. 또한 사용자가 기본 데이터를 변경하지 못하도록 기본 데이터를 보호해야 합니다.

보고 중

보고는 시스템의 전반적인 보기를 생성하는 데 사용됩니다. 이는 과거 데이터와 현재 정보를 통합할 수 있습니다. 보고 요구 사항은 크게 운영 보고와 보안 보고라는 두 가지 범주로 나뉩니다.

운영 보고에는 일반적으로 다음이 포함됩니다.

  • 지정된 기간 동안 전체 시스템 또는 지정된 하위 시스템의 리소스 활용도를 이해하는 데 사용할 수 있는 통계를 집계합니다.
  • 특정 기간 동안 전체 시스템 또는 특정 하위 시스템의 리소스 사용량 추세를 식별합니다.
  • 지정된 기간 동안 시스템 전체 또는 지정된 하위 시스템에서 발생한 예외를 모니터링합니다.
  • 배포된 리소스에 대한 애플리케이션의 효율성을 결정하고 리소스의 양과 관련 비용을 성능에 불필요하게 영향을 주지 않고 줄일 수 있는지 이해합니다.

보안 보고는 고객의 시스템 사용을 추적합니다. 여기에는 다음이 포함될 수 있습니다.

  • 사용자 작업을 감사합니다. 이 작업을 수행하려면 각 사용자가 완료하는 개별 요청을 날짜 및 시간과 함께 기록해야 합니다. 데이터는 관리자가 지정된 기간 동안 사용자가 완료하는 작업 순서를 신속하게 재구성할 수 있도록 구성되어야 합니다.
  • 사용자별 리소스 사용을 추적합니다. 이 작업을 수행하려면 사용자의 각 요청이 시스템의 다양한 리소스에 액세스하는 방법과 기간을 기록해야 합니다. 관리자는 이 데이터를 사용하여 특정 기간 동안, 청구를 위해 사용자별로 사용률 보고서를 생성할 수 있습니다.

경고

시스템이 정상적인 상태, 응답성, 보안을 유지하도록 하려면 운영자가 적시에 대응할 수 있도록 경고를 설정하십시오. 경고에는 진단 활동을 신속하게 시작하는 데 도움이 되는 충분한 상황별 정보가 포함될 수 있습니다.

경고에 대한 권장 사항

  • 책임 있는 담당자와 조치를 식별하는 경고 대응 프로세스를 정의합니다.
  • 잘 정의된 범위에 대해 경고를 구성하고 자세한 정도를 조정하여 노이즈를 최소화합니다.
  • 사람들에게 적극적으로 문제를 찾도록 요구하는 대신 Splunk 또는 Azure Monitor와 같은 자동화된 경고 솔루션을 사용하십시오.
  • 경고를 사용하여 수정 프로세스를 운영화합니다. 예를 들어 문제와 해결 방법을 추적하는 티켓을 자동으로 만듭니다.

임계값

모니터링 시스템에서 감지된 임계값을 초과하면 경고가 생성됩니다. 일반적으로 설정한 임계값이 성능 저하나 중단을 방지하기 위해 워크로드에 필요한 변경 사항을 구현하는 데 충분한 시간을 제공하는지 확인하세요. 또한 필요한 오류 처리를 구현하고 워크로드에서 알려진 오류를 포착하여 경고 수를 줄여야 합니다. 예를 들어 흐름 실행의 일부로 재시도가 시도되고 반복된 재시도가 실패하고 흐름 실패가 기록되고 경고가 전송되는 경우에만 클라우드 흐름의 작업에 대한 재시도 정책을 구성합니다. 신뢰할 수 있는 모니터링 및 경고 전략을 설계하기 위한 권장 사항에서 자세히 알아보세요.

Power Platform 간편 사용

Power Platform은 Application Insights와 통합되며, 이는 Azure Monitor 에코시스템의 일부입니다. 이 통합을 다음에 사용할 수 있습니다.

  • Application Insights에서 Dataverse 플랫폼이 캡처한 진단 및 성능에 대한 원격 측정을 받을 수 있습니다. 애플리케이션이 Dataverse 데이터베이스 및 모델 기반 앱 내에서 수행하는 작업에 대한 원격 분석을 받아볼 수 있습니다. 이 원격 분석은 오류 및 성능과 관련된 문제를 진단하고 해결하는 데 사용할 수 있는 정보를 제공합니다.

  • Application Insights에 캔버스 앱을 연결하세요. 이러한 분석을 사용하여 문제를 진단하고 사용자가 앱으로 무엇을 하는지 이해할 수 있습니다. 더 나은 비즈니스 결정을 내리고 앱 품질을 개선하는 데 도움이 되는 정보를 수집할 수 있습니다.

  • Application Insights로 흐르도록 Power Automate 원격 분석을 구성합니다. 예를 들어 클라우드 흐름 실행을 모니터링하고 클라우드 흐름 실행 실패에 대한 경고를 만들 수 있습니다.

  • Microsoft Copilot Studio 에이전트에서 원격 분석 데이터를 수집하여 Azure Application Insights에서 사용합니다. 이 원격 분석을 사용하여 에이전트와 주고받는 기록된 메시지 및 이벤트, 사용자 대화 중에 트리거되는 주제 및 주제에서 보낼 수 있는 사용자 지정 원격 분석 이벤트를 모니터링할 수 있습니다.

Power Platform은 Microsoft Purview 컴플라이언스 포털에 로그 작업을 리소스합니다. 대부분의 이벤트는 활동 후 24시간 이내에 이용 가능합니다. 실시간 모니터링에는 이 정보를 사용하지 마세요. Power Platform의 활동 로깅에 대한 자세한 내용은 다음을 참조하세요.

Power Platform 워크로드에는 Azure 리소스가 포함될 수 있습니다. 모니터링 시스템 설계 및 구축에 대한 권장 사항에서 자세히 알아보세요.

Power Platform CoE 시작 키트는 Power Platform 채택 및 지원 전략 개발을 시작하는 데 도움이 되도록 설계된 구성 요소 및 도구 모음을 포함하는 참조 구현입니다. CoE 시작 키트에는 다양한 대시보드 세트가 포함되어 있습니다. CoE Power BI 대시보드를 통해 Microsoft Power Platform 채택에 대한 통찰력 얻기에서 자세히 알아보세요.

Power Platform 자동화 키트는 자동화 프로젝트를 위한 데스크톱용 Power Automate의 사용 및 지원을 가속화하는 도구 세트입니다. 이 키트는 자동화 프로젝트를 관리하고 모니터링하여 절감된 비용과 투자 수익(ROI)을 추정하는 데 도움이 되는 도구를 제공합니다. 자동화 키트에는 모니터 데스크톱 흐름 실행 기능을 보완하는 제어 센터가 포함되어 있습니다. 제어 센터의 주요 초점은 지원 분석가와 조직이 모니터링하고, 조치를 취하고, 필요할 때 경고할 수 있는 오케스트레이터 보기입니다.

다음 단계: