라이브 공연 문제 대응을 위한 권장 사항
이 Power Platform Well-Architected Performance Efficiency 체크리스트 권장 사항에 적용됩니다.
09년 | 라이브 공연 문제에 대응합니다. 명확한 의사소통 경로와 책임을 통합하여 성과 문제를 해결하는 방법을 계획합니다. 문제 상황이 발생하면 배운 내용을 활용하여 예방 조치를 식별하고 작업 부하에 통합하세요. 유사한 상황이 발생하면 보다 신속하게 정상 운영으로 돌아갈 수 있는 방법을 구현합니다. |
---|
이 가이드에서는 라이브 성능 문제에 대응하는 모범 사례를 설명합니다. 실시간 성능 문제는 작업 부하의 최적 기능을 방해할 수 있는 실시간 문제와 병목 현상을 말합니다. 이러한 문제를 신속하게 해결하면 성능 문제를 바로 감지하고 바로잡는 것이 쉬워질 뿐만 아니라 작업 부하가 지속적으로 성능 기준을 충족하도록 보장할 수 있습니다. 이러한 문제를 해결하지 못하면 속도 저하, 충돌, 시스템 무반응 등의 문제가 발생할 수 있으며, 사용자 경험이 저하될 수 있습니다. 또한, 사용자가 작업을 효율적으로 완료하지 못하게 할 수도 있고, 결과적으로 조직의 평판을 손상시킬 수도 있습니다.
정의
용어 | 정의 |
---|---|
데이터 상관관계 | 다양한 작업 부하 부분에서 발생하는 로그, 메트릭 및 이벤트를 정렬하여 근본 원인을 파악합니다. |
근본 원인 분석 | 문제의 근본 원인이 되는 요인을 파악하는 과정입니다. |
자기치유 | 인간의 개입 없이 문제를 자동으로 해결할 수 있는 기능. |
자기 예방 | 잠재적인 문제와 실패를 방지하기 위한 작업 부하 내 구현입니다. |
주요 디자인 전략
라이브 공연에서 문제가 발생하면 올바른 데이터와 문제에 대응할 계획을 준비해야 합니다. 이 계획에는 명확한 의사소통 경로와 책임 사항이 포함되어야 합니다. 주요 목표는 성능 문제가 일시적인지 고립된 것인지 확인하고, 성능 문제의 근본 원인을 파악하며, 정상 운영으로 신속하게 복귀할 수 있는 솔루션을 구현하고 사고로부터 통찰력을 제공하는 것입니다. 예방 조치를 업무 흐름에 통합하는 것은 핵심적인 전략입니다. 목표는 동일한 문제가 다시 발생하지 않도록 방지하거나, 방지할 수 없는 경우 성능에 미치는 영향을 줄이는 것입니다.
문제에 대비하세요
실시간 사이트 성능 문제에 대한 이상적인 응답는 정확하고 빠릅니다. 성능 개선에 있어서 정확성과 속도를 갖추려면 준비가 필요합니다. 실시간 성능 문제에 효과적으로 대응하려면 주요 성능 지표를 모니터링하고, 문제의 근본 원인을 파악하며, 적절한 솔루션이나 최적화를 구현하는 것이 중요합니다. 이러한 단계를 수행하려면 워크로드 로그를 분석하고, 성능 테스트를 수행하고, 코드나 구성을 최적화해야 할 수도 있습니다.
다음 예에서는 준비에 있어 몇 가지 중요한 영역을 간략하게 설명합니다.
정확한 아키텍처 다이어그램을 갖추세요. 아키텍처 다이어그램에는 모든 구성 요소가 포함되어야 하며 구성 요소 간의 상호 작용도 보여야 합니다. 시각적 표현은 성능 저하나 가용성 부족으로 이어질 수 있는 병목 현상과 단일 장애 지점을 식별하는 데 도움이 될 수 있습니다. 이상적으로는 문제가 생기기 전에 문제를 포착하여 제거하는 것이 좋지만, 최신 다이어그램이 있으면 스트레스가 많은 순간에 문제를 정확히 찾아내는 데 도움이 될 수 있습니다.
데이터 액세스를 확인하세요. 모니터링 프로세스에서 생성되는 데이터와 로그는 성능 문제에 실시간으로 대응하고 근본 원인 분석을 수행하는 데 매우 중요합니다. 하지만 데이터의 무결성과 기밀성을 유지하는 것이 중요합니다. 실시간 사이트 성능 문제에 대응하려면 일반적으로 접근할 수 없는 기본 데이터에 액세스해야 하는 경우가 많습니다. 문제가 발생했을 때 직원이 필요한 데이터에 접근할 수 있도록 해야 합니다. 하지만 시간 제한이 있고 권한이 최소한의 접근 권한만 부여해야 하며, 권한이 있는 사람에게만 접근을 허용해야 합니다.
자동 알림을 설정합니다. 알림은 문제가 발생하자마자 이를 식별하고 해결하는 데 도움이 됩니다. 경고는 작업 부하 성능이 성능 기준선에서 벗어날 때 알림을 생성해야 합니다. 시간이 지남에 따라 알림 구성을 조정하여 알림이 너무 많이 생성되거나 너무 적게 생성되는 것을 방지해야 합니다. 사용하는 모니터링 솔루션은 알림을 생성하기에 충분한 데이터를 수집해야 합니다. 이러한 알림에는 성능 목표와 확립된 기준이 포함되어야 합니다. 목표와 관련이 없는 문제에 대한 알림은 생성하지 않는 것이 좋습니다. 알림의 예로는 응답 시간의 저하, Dataverse API 호출이나 플러그인의 성능, 페이지 로드 등이 있습니다.
응급처치 계획을 세우세요
분류 계획을 수립하려면 실시간 사이트 성능 문제를 식별, 확대, 분석, 우선순위 지정 및 전달하기 위한 체계적인 접근 방식을 고안해야 합니다. 응급처치 계획은 실시간 공연 문제에 대응하기 위한 전략입니다. 명확한 역할과 절차를 통해 성과 저하 문제가 신속하고 효과적으로 해결되도록 보장합니다. 대부분의 성능 문제는 재해 복구 프로토콜의 필요성이 없지만 작업 부하 기능에 영향을 미쳐 분류 계획이 필요할 수 있습니다. 잘 문서화된 분류 계획은 모든 팀 구성원이 조율을 맞추고 신속하게 조치를 취하도록 보장하여 사용자와 작업 부하에 미치는 영향을 최소화합니다. 응급처치 계획에는 다음 구성 요소가 포함되어야 합니다.
식별 및 모니터링: 실시간으로 성능 문제를 식별하고 모니터링하는 시스템을 구현합니다. 결정을 내리거나 문제를 상위 단계로 상향시킬 수 있는 사람들의 연락처 목록을 가지고 있어야 합니다. 계획에는 역할과 책임도 명시되어야 합니다. 어떤 계정이 보호된 정보에 얼마나 오랫동안 접근할 수 있는지 문서화해야 합니다.
에스컬레이션 프로세스: 성과 문제가 적절한 팀이나 개인에게 적절한 시기에 에스컬레이션되도록 명확한 에스컬레이션 프로세스를 정의합니다. 프로세스 정의에는 연락처 정보와 문제 확대에 대한 지침이 포함되어야 합니다.
근본 원인 분석: 각 성과 문제의 근본 원인을 파악하기 위해 근본 원인 분석을 수행하는 프로세스를 개발합니다. 이 프로세스에는 로그와 성능 지표를 분석하고, 각 문제의 근원을 정확히 찾아내기 위한 진단 테스트를 실시하는 과정이 포함됩니다.
우선순위 지정: 성능 문제의 심각성을 파악하고 작업 부하와 사용자에게 미치는 영향에 따라 우선순위를 지정하기 위한 우선순위 지정 프레임워크를 구축합니다.
커뮤니케이션: 이해관계자들에게 성과 문제의 상태와 해결 진행 상황을 알리기 위한 커뮤니케이션 계획을 수립합니다. 정기적인 업데이트, 상태 보고서, 명확한 커뮤니케이션 채널을 고려하세요.
문서화: 모든 단계, 프로세스, 모범 사례를 포함하여 분류 계획을 문서화합니다. 이 문서는 성과 문제에 대응하는 팀 구성원이 쉽게 접근할 수 있어야 합니다.
문제를 식별하고 해결하는 방법 개발
라이브 성능 문제를 해결하려면 라이브 워크로드에서 성능 저하나 비효율성을 유발할 수 있는 모든 요소를 식별하고 해결해야 합니다. 모니터링 중에 수집한 데이터는 성과 관련 사고를 조사하고 해결하는 데 매우 귀중합니다. 이 데이터는 성과 지표에 대한 과거 기록을 제공합니다. 모니터링 데이터가 있으면 근본 원인을 분석하고 이에 기여하는 요인을 파악할 수 있습니다. 모든 관련 모니터링 데이터를 사용하여 각 성능 문제를 이해하고 해결해야 합니다. 일시적인 급증이 얼마나 감지되는지 모니터링하고 이에 따라 맞추다 임계값을 설정합니다.
근본 원인 분석을 활용하세요
근본 원인 분석에는 가설 검정이 필요합니다. 모니터링 데이터를 검토한 후 성능 문제의 잠재적 원인을 나열하고 테스트해야 합니다.
라이브 성능 문제에 대한 근본 원인 분석을 수행하려면 다음 단계를 따르세요.
정보를 수집하세요. 성능 문제에 관해 가능한 한 많은 정보를 수집하세요. 예로는 오류 메시지, 로그, 성능 측정 항목 및 기타 관련 데이터 등이 있습니다. 또한 문제를 보고한 사용자에 대한 정보(기기, 네트워크, 위치 등)도 포함하세요.
문제를 정의하세요. 문제의 증상과 문제가 작업 부하나 사용자에게 미치는 영향을 파악하여 문제를 명확하게 정의합니다.
잠재적인 원인을 조사하세요. 성능 문제가 발생하는 작업 부하의 특정 구성 요소 또는 영역을 식별하여 분석 범위를 좁힙니다. 수집된 정보를 기반으로 성능 문제의 잠재적 원인을 파악합니다. 이 프로세스에는 코드, 구성 설정, 인프라 또는 외부 종속성 분석이 포함될 수 있습니다.
데이터의 상관관계를 분석합니다. 수집된 데이터를 심층적으로 조사하여 성능 문제에 영향을 줄 수 있는 패턴, 이상치 또는 상관 관계를 파악합니다. 데이터 상관관계는 성능 문제와 원인을 파악하는 데 중요합니다. 여기에는 로그 검토, 성능 지표 분석, 테스트 수행 등이 포함될 수 있습니다.
가설을 검증합니다. 당신이 발견한 잠재적인 원인을 토대로 가설을 수립하세요. 가설을 검증하거나 반박하기 위한 테스트를 실시합니다. 오류를 재현할 수 있는지 확인하려면 테스트 환경를 사용해야 합니다.
해결책을 구현합니다. 근본 원인을 파악한 후 성능 문제를 해결하기 위한 솔루션을 개발하고 구현합니다.
모니터링하고 검증합니다. 솔루션을 구현한 후에는 성능 문제가 해결되었는지 확인하기 위해 지속적으로 작업 부하를 모니터링하세요. 성과 지표와 사용자 피드백을 모니터링하여 솔루션의 효과를 검증합니다.
트레이드오프: 근본 원인 분석의 단계, 즉 가능성 있는 원인 식별, 가설 검정, 분석 결과 문서화 등은 시간이 많이 걸릴 수 있습니다. 성능 문제의 상관관계를 알아보려면 데이터를 수집하고 저장해야 합니다. 필요한 시간과 인프라로 인해 운영팀의 업무량이 상당히 늘어나고 작업 부하에 비용이 추가될 수 있습니다.
위험: 적절한 보안 가드레일 없이 근본 원인 분석을 수행하면 로그와 데이터에 대한 액세스를 제공할 때 민감한 정보가 노출될 위험이 있습니다.
참여 Microsoft 지원
지속적인 성능 문제를 해결하려면 지원팀에 문의하세요. Microsoft Microsoft 지원 담당자는 문제를 해결하는 데 필요한 전문 지식, 도구, 리소스, 경험을 갖추고 있을 뿐만 아니라, 업무 부하에 영향을 줄 수 있는 현재의 글로벌 성능 문제나 중단을 알고 있을 수도 있습니다. 지원 계약에 따라 제공되는 지원 수준이 결정됩니다.
Microsoft 지원팀과 병행해서 작업하는 것이 가장 좋습니다. 예를 들어, 일부 팀원이 지원팀과 협업하는 동시에 다른 팀원이 성과 문제를 지속적으로 선별하여 해결하는 전략을 고려해 보세요. Microsoft
팀에 지원 연락처 정보를 제공하는 것이 중요합니다. 문제 해결에 효과적으로 참여하려면 지원팀에서도 데이터에 액세스해야 할 수 있다는 점을 명심하세요. Microsoft
자세한 내용은 도움말 + 지원 받기 Power Platform를 참조하세요.
발견으로부터 배우다
라이브 사이트 성능 문제를 해결한 후에는 무슨 일이 일어났는지 검토해야 합니다. 목표는 문제를 식별하는 데 그치지 않고 성과 문제로부터 교훈을 얻는 것입니다. 학습하는 가장 좋은 방법은 문서를 통해서입니다. 각 문제를 문서화하고 해결 방법을 설명합니다. 공급업체가 도움을 준 경우 공급업체와 협력하여 문서화를 개선하고, 팀을 교육하고, 업무량을 그에 맞게 조정하세요.
문서에는 각 문제가 다시 발생하지 않도록 방지하는 방법이 명시되어 있어야 합니다. 문서화와 함께 성과 문제 지표에 조기에 대응하는 데 도움이 되는 정교한 알림을 만들 수 있습니다.
Power Platform 간편 사용
Power Platform Azure는 라이브 성능 문제에 대응하는 데 도움이 되는 여러 도구를 제공합니다.
Azure Monitor 는 애플리케이션과 인프라의 성능과 상태에 대한 통찰력을 제공하는 포괄적인 모니터링 솔루션입니다. Azure Monitor는 성능 문제를 모니터링하고 진단하는 데 도움이 되는 메트릭, 로그, 경고, 대시보드와 같은 기능을 제공합니다. Power Platform 앱과 자동화는 Application Insights 기능을 사용하여 Azure Monitor와 통합할 수 있습니다. 사용자 정의 추적 이벤트와 함께 표준 원격 측정을 기록하고 분석할 수 있습니다.
Application Insights 개발자와 DevOps 전문가가 라이브 애플리케이션을 모니터링하는 데 도움이 되는 애플리케이션 성능 관리(APM) 서비스입니다. 성능 이상을 자동으로 감지하고, 애플리케이션 수준의 로그와 이벤트를 수집하고, 문제를 진단하기 위한 분석 도구를 제공합니다. Power Platform Application Insights와 통합됩니다.
Log Analytics 는 애플리케이션, 가상 머신, Azure 리소스를 포함한 다양한 소스에서 로그 데이터를 수집하고 분석하는 서비스입니다. Log Analytics를 사용하면 로그 데이터를 쿼리하고 분석하여 애플리케이션의 성능과 동작에 대한 통찰력을 얻을 수 있습니다. 워크로드에 Azure 리소스가 사용되는 경우 Log Analytics를 사용하는 것이 좋습니다.
솔루션 검사기 는 일련의 모범 사례 규칙에 따라 솔루션에 대한 풍부한 정적 분석을 수행하고 문제가 있는 패턴을 식별합니다. 라이브 사이트 성능 문제를 방지하려면 솔루션을 프로덕션에 배포하기 전에 성능 관련 문제를 모두 해결하세요.
성능 효율성 체크리스트
전체 권장 사항 세트를 참조하세요.