设计可靠监视和警报策略的建议

项目
01/15/2025

适用于此 Power Platform Well-Architected 可靠性清单建议：

RE:08	度量和发布解决方案的运行状况指标。从整个工作负载以及单个组件和关键流持续捕获运行时间和其他可靠性数据。

本指南介绍设计可靠监视和警报策略的建议。实施此策略，让您的运营团队随时了解您的环境的运行状况，确保您达到既定的工作负荷可靠性目标。

定义

术语	定义
指标	定期收集的数值。指标描述系统在特定时间的某些方面。
资源日志	系统生成的有关系统状态的数据。
跟踪	提供请求通过服务和组件的路径信息的数据。

关键设计策略

在创建监视和警报策略之前，作为可靠性计划的一部分为您的工作负荷执行以下任务：

确定关键和非关键流。
为流执行故障模式分析 (FMA)。
确定可靠性目标。
设计稳健的测试策略。

创建监视和警报策略，让您的运营团队了解您的工作负荷状况的变化，并能够快速解决问题。关键流和包括关键流的工作负荷的运行状况模型应定义运行状况、降级和不正常状态。设计监视态势来立即捕捉这些状态的变化。当运行状况状态从正常变为降级或不正常时，警报机制应触发自动恢复措施并向负责团队发出警报。

采纳以下建议，设计满足业务要求的监视和警报策略。

常规指导

了解指标、日志和跟踪之间的差异。

为所有云资源启用记录。在部署中使用自动化和治理来在整个环境中启用诊断记录。

将所有诊断日志转发到集中的数据接收器和分析平台，如 Log Analytics 工作区。如果您有区域数据主权要求，必须在受这些要求约束的区域使用本地数据接收器。

权衡：存储和查询日志涉及成本问题。注意日志分析和保留对预算的影响，确定最佳利用率平衡以满足您的要求。

如果您的工作负荷受一个或多个合规性框架约束，一些处理敏感信息的组件日志也受这些框架约束。将相关组件日志发送到安全信息和事件管理 (SIEM) 系统，如 Microsoft Sentinel。

创建日志保留策略，在策略中包含合规性框架对您的工作负荷施加的长期保留要求。

对所有日志消息使用结构化记录，以优化日志数据的查询。

将警报配置为在值超过与运行状况模型状态更改相关的关键阈值时触发，如绿色到黄色或红色。阈值配置是一种不断改进的做法。随着工作负荷的发展，您定义的阈值可能会发生变化。

考虑在状态改善时使用警报，如红色到黄色，或红色到绿色，以便运营团队可以跟踪这些事件以供将来参考。

使用自定义仪表板可视化环境的实时运行状况。

使用事件期间收集的数据不断改进您的运行状况模型。

引入云平台监视和警报服务，包括平台级运行状况。

引入云提供商提供的专门构建的高级监视和分析，如 Azure Monitor 见解工具。

实施备份和恢复监视来捕获：

数据复制状态，确保您的工作负荷在目标恢复点目标 (RPO) 内实现恢复。
成功和失败的备份和恢复。
告知灾难恢复计划的恢复持续时间。

监视应用程序和代理

在生产环境中运行应用程序或代理时记录数据。您需要足够的信息来诊断生产状态中问题的原因。

记录服务边界的事件。包括跨服务边界流动的相关 ID。如果一个事务流经多个服务，其中一个服务失败，相关 ID 可以帮助您跟踪整个应用程序的请求，确定事务失败的原因。

将应用程序和代理日志记录与审核分开。审核记录通常是为了满足合规性或法规要求进行维护，记录必须完整。为避免事务中断，将审核日志与诊断日志分开维护。

使用白盒监视来检测应用程序或带有语义日志和指标的代理。从应用程序或代理收集应用程序和代理级别的指标和日志，例如内存消耗或请求延迟，以便为运行状况模型提供信息，并检测和预测问题。

使用黑盒监视来衡量平台服务和生成的客户体验。黑匣子监控在不了解系统内部的情况下测试外部可见的应用程序或代理行为。此方法通常用于度量以客户为中心的服务级别指标 (SLI)、服务级别目标 (SLO) 和服务级别协议 (SLA)。

监视数据和存储

监视存储容器的可用性指标。当此指标降到 100% 以下时，表示写入失败。当您的云提供商管理负荷时，可用性可能会暂时下降。跟踪可用性趋势，确定您的工作负荷是否存在问题。在某些情况下，存储容器的可用性指标的下降表明与存储容器相关联的计算层存在瓶颈。

数据库有很多指标需要监视。在可靠性方面，需要监视的重要指标包括：

查询持续时间
超时
等待时间
内存压力
锁定

Power Platform 推进

Power Platform 与 Application Insights 集成，后者是 Azure Monitor 生态系统的一部分。使用该集成可：

订阅 Application Insights 中 Dataverse 平台捕获的遥测数据，了解应用程序在Dataverse 数据库和模型驱动应用中执行的诊断、性能和操作。遥测提供可用于诊断和解决与错误和性能有关的问题的信息。
将您的画布应用程序连接到 Application Insights，以使用这些分析来诊断问题，了解用户实际使用您的应用程序做了什么，推动更好的业务决策，并提高您的应用程序的质量。
将 Power Automate 遥测数据配置为流入 Application Insights。您可以使用此遥测数据来监控云端流执行，并为云端流运行失败创建警报。
从您的 Microsoft Copilot Studio 代理捕获遥测数据，供 Azure Application Insights 使用。您可以使用这些遥测数据来监控向代理发送或从代理发送的记录消息和事件、在用户对话期间触发的主题以及可从主题发送的自定义遥测事件。

Microsoft Purview 合规门户中的 Power Platform 资源日志活动。大多数事件在活动开始后 24 小时内可用。不要将这些信息用于实时监控。有关 Power Platform 中日志记录活动的更多信息，请参见：

您的 Power Platform 工作负荷可能包括 Azure 资源。要了解有关 Azure 资源监视建议的更多信息，请参阅设计和创建监视系统的建议。

Power Platform CoE 初学者工具包是一个包含组件和工具的参考实施，用于帮助您开始制定关于采用和支持 Power Platform 的策略。该工具包提供自动化功能和工具，以帮助团队构建支持 CoE 所需的监控和自动化功能。

如何检查我的联机服务运行状况？

可靠性清单

请参考整套建议。

可靠性清单

通过

设计可靠监视和警报策略的建议

关键设计策略

常规指导

监视应用程序和代理

监视数据和存储

Power Platform 推进

可靠性清单

反馈

其他资源

通过

设计可靠监视和警报策略的建议

关键设计策略

常规指导

监视应用程序和代理

监视数据和存储

Power Platform 推进

相关信息

可靠性清单

反馈

其他资源