你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
监视 Log Analytics 工作区运行状况
Azure 服务运行状况 监视 Log Analytics 工作区等云资源的运行状况。 当 Log Analytics 工作区正常运行时,你从 IT 环境的资源中收集的数据可用于在相对较短的时间内进行查询和分析,称为 延迟。 本文介绍了如何查看 Log Analytics 工作区的运行状况、设置工作区运行状况警报并查看工作区运行状况指标。
Azure 服务运行状况监视器:
- 资源运行状况: 有关单个云资源(例如特定 Log Analytics 工作区)运行状况的信息。
- 服务运行状况: 有关正在使用的 Azure 服务和区域的运行状况的信息,这些信息可能会影响 Log Analytics 工作区,包括有关中断、计划内维护活动和其他运行状况公告的通信。
所需的权限
- 要查看 Log Analytics 工作区运行状况,需要具有 Log Analytics 工作区的
*/read
权限,例如由 Log Analytics 读者内置角色提供的权限。 - 要设置运行状况警报,需要具有 Log Analytics 工作区的
Microsoft.Insights/ActivityLogAlerts/Write
权限,例如,由监视参与者内置角色提供的权限。
查看 Log Analytics 工作区运行状况并设置运行状况警报
要查看 Log Analytics 工作区运行状况并设置运行状况警报:
从 Log Analytics 工作区菜单中选择“资源运行状况”。
“资源运行状况”屏幕显示:
- 运行状况历史记录:指示 Azure 服务运行状况是否在特定 Log Analytics 工作区中检测到延迟或查询执行问题。 要进一步调查与工作区相关的延迟问题,请参阅 调查延迟。
- Azure 服务问题: 当 Azure 服务的已知问题可能影响 Log Analytics 工作区中的延迟时,会显示此消息。 选择消息以查看有关 Azure 服务运行状况中服务问题的详细信息。
注意
- 服务运行状况通知并不表示 Log Analytics 工作区必然受已知服务问题的影响。 如果 Log Analytics 工作区资源运行状况为“可用”,则 Azure 服务运行状况未检测到工作区中的问题。
- 资源运行状况功能将预期引入延迟较长的数据类型。 例如,计算应用程序映射数据且已知会增加延迟的 Application Insights 数据类型。
此表描述了 Log Analytics 工作区可能的资源运行状况值:
资源运行状况 说明 可用 平均延迟(未检测到查询执行问题)。 不可用 检测到的延迟高于平均水平。 已降级 检测到查询失败。 未知 目前无法确定 Log Analytics 工作区运行状况,因为你最近没有运行查询或将数据引入到此工作区。 要设置健康状况警报,可以启用建议的现成警报规则,也可以手动创建新的警报规则。
要启用建议的警报规则:
选择“警报”>“启用推荐的警报规则”。
会打开“启用推荐的警报规则”窗格,其中包含Log Analytics 工作区的推荐警报规则列表。
在“向我发送警报”部分中,选择要启用的所有规则。
在“通知我的方式”部分中,选择在触发警报时获得通知的方式。
选择“使用现有操作组”,如果要使用已存在的操作组,则输入现有操作组的详细信息。
选择“启用”。
要新建警报规则:
选择“添加资源运行状况警报”。
会打开“创建警报规则”向导,其中已预填充“范围”和“条件”窗格。 默认情况下,规则触发器会提醒订阅中所有 Log Analytics 工作区中的所有状态更改。 你可根据需要在此阶段编辑和修改范围和条件。
按照 在 Azure 门户中新建警报规则 中的其余步骤进行操作。
查看 Log Analytics 工作区运行状况指标
Azure Monitor 公开了一组指标,用于了解 Log Analytics 工作区运行状况。
要查看 Log Analytics 工作区运行状况指标:
从 Log Analytics 工作区菜单中选择“指标”。 这会在 Log Analytics 工作区的上下文中打开“指标资源管理器”。
在“指标”字段中,选择 Log Analytics 工作区运行状况指标之一:
类别 指标名称 作用域 说明 SLI AvailabilityRate_Query 工作区 选定时间范围内 Log Analytics 工作区中成功的用户查询的百分比。
此数字包括返回 2XX、4XX 和 504 响应代码的所有查询;换句话说,不会导致服务错误的所有用户查询。SLI 引入时间 工作区或表 指示记录在 Azure Monitor 日志接收后可供查询使用的时间(以秒为单位)。 建议检查特定表的引入时间。
可用于常用表。 若要查看工作区中哪些表支持引入时间指标,请检查表名称此指标的维度值。SLI 引入量 工作区或表 引入到工作区或表中的记录数。
可用于常用表。 若要查看工作区中哪些表支持引入卷指标,请检查表名称此指标的维度值。用户查询 查询计数 工作区 选定时间范围内 Log Analytics 工作区中的用户查询总数。
此数字仅包括用户启动的查询,不包括由 Sentinel 规则启动的查询和警报相关查询。用户查询 查询失败计数 工作区 选定时间范围内 Log Analytics 工作区中失败的用户查询总数。
此数字包括返回 5XX 响应代码 - 504 网关超时 除外 - 的所有查询,这些代码指示与应用程序网关或后端服务器相关的错误。数据导出 导出的字节数 工作区 选定时间范围内从 Log Analytics 工作区导出到目标的字节总数。 导出的数据大小是导出的 JSON 格式数据中的字节数。 1 GB = 10^9 字节。 数据导出 导出失败数 工作区 选定时间范围内 Log Analytics 工作区中失败的导出请求总数。
此数量包括 Azure Monitor、目标资源可用性或限制可能导致的导出失败数。数据导出 导出的记录数 工作区 选定时间范围内从 Log Analytics 工作区导出的记录总数。
调查 Log Analytics 工作区运行状况问题
要调查 Log Analytics 工作区运行状况问题:
- 使用 Log Analytics 工作区见解,它提供了工作区使用情况、性能、运行状况、代理、查询和更改日志的统一视图。
- 查询 Log Analytics 工作区中的数据,以导致工作区延迟大于预期的因素。
- 使用
_LogOperation
功能查看和设置有关 Log Analytics 工作区中记录的操作问题 的警报。
后续步骤
了解有关以下方面的详细信息: