为 Azure 本地设置日志警报

适用于:Azure 本地版本 23H2 和 22H2

本文介绍如何为 Azure 本地系统设置日志警报:使用适用于 Azure 本地的见解,以及使用预先存在的示例日志查询,例如平均节点 CPU、可用内存、可用卷容量等。

有关如何设置指标警报的信息,请参阅 为 Azure 本地设置指标警报。

花些时间观看视频演练,了解如何收集新日志、自定义 Insights 工作簿,以及使用日志创建警报:

先决条件

在开始之前,请确保满足以下先决条件:

  • 有权访问已部署和注册的 Azure 本地系统。
  • 必须已在群集上启用 Insights。 启用 Insights 会将群集配置为在 Log Analytics 工作区中收集所需的日志。

使用 Insights 设置日志警报

重要

不建议将 Insights 用于高严重性警报。 收集日志可能需要 15 分钟。

按照以下步骤使用 Insights 设置日志警报。 确保你已查看并完成先决条件

  1. 在Azure 门户中,导航到或搜索“监视”并选择“Azure 本地”。

  2. 选择某个选项卡以查看资源的运行状况。 例如,选择“节点以查看群集中节点的运行状况。

  3. 自定义工作簿并对其进行编辑,直到出现蓝色的“日志视图”图标。 选择该图标以查看和编辑查询。

    受监视资源和资源运行状况的屏幕截图。

  4. 加载查询后,选择“+ 新建警报规则”。

    屏幕截图显示群集的“新建警报规则”以及创建新警报的方法。

  5. 在警报界面中,你可以设置警报条件、操作等。 有关详细信息,请参阅日志查询结果警报操作和详细信息

    创建新警报时要定义的项的屏幕截图。

使用示例日志查询设置警报

可以使用Azure 门户提供的预先存在的日志查询开始监视 Azure 本地系统并为其设置警报。 这些查询可帮助你检查和监视系统的运行状况。

按照以下步骤使用示例日志查询设置日志警报。 确保你已查看并完成先决条件

  1. 在Azure 门户中,浏览到 Azure 本地系统资源页,然后选择要使用示例日志查询监视的群集。

  2. 在群集的“概述”页上,选择“JSON 视图”。

    “JSON 视图”中用于查找 ClusteArmId 的链接的屏幕截图。

  3. 从“资源 ID”框中复制 ClusterArmId 详细信息。

    可在其中复制 ClusteArmId 信息的“资源 JSON”页的屏幕截图。

  4. 在 Azure 门户中,导航到或搜索“监视”,然后选择“日志”。

  5. 选择“+ 添加筛选器”添加“资源类型”筛选器。

  6. 为 Azure 本地系统示例日志的填充列表选择 Azure 本地

    屏幕截图显示 Azure Monitor 日志工作区以及如何访问示例查询。

  7. 选择“加载到编辑器”以打开查询工作区。

  8. 将链接到群集资源的日志的范围设置为“Log Analytics 工作区”。

  9. 将“ClusterArmId”详细信息粘贴到查询的 where ClusterArmId =~ 节中,以查看与群集相关的结果。

    Log Analytics 工作区和群集 Arm ID 查询的屏幕截图。

  10. 选择“运行”。

显示信息后,可以检查日志并根据结果创建警报。 有关详细信息,请参阅日志查询结果警报操作和详细信息

为多个群集设置警报

若要设置新查询或更改现有查询以适应多个群集 ClusterArmId,请将 | where ClusterArmId in~ 子句添加到查询中。 请包含你要在查询中使用的每个群集的 ClusterArmId。 例如: | where ClusterArmId in~ ('ClusterArmId1', 'ClusterArmId2', 'ClusterArmId3')

用于显示多个群集的日志的查询屏幕截图。

日志查询结果

添加日志后,应该通过对存储群集日志的工作区运行查询来确认获得了预期的结果。 如果未获得预期的结果,请更正并重新运行日志查询。

创建新的警报规则时,必须设置条件详细信息以汇总查询结果。 这些详细信息基于三个类别:度量、按维度拆分和警报逻辑。 在警报详细信息中填写以下组件:

  • 度量:用于设置警报的值。 默认情况下,它仅接受数值。 将值转换为整数,并从下拉列表中选择正确的值。
  • 聚合类型:确保可以收到警报,即使只有一个群集内存值符合指定的值。 对于多个群集上的警报,需要将聚合类型设置为最大值,而不是平均值或总数。
  • 资源 ID 列:根据其他值拆分警报度量值。 若要获取群集上的警报,请使用 clusterarmID 或设置节点的警报,请使用 _resourceID。 检查日志查询中的值名称是否准确。
  • 维度名称:进一步拆分警报度量。 例如,若要获取每个节点的警报,请选择 。Nodename
    • 设置警报时,下拉菜单中不一定会显示所有值。 选中“包括所有未来值”复选框,以确保在群集中的多个节点上设置相同的警报。
  • 阈值:根据设置的值提供通知。

在此示例中,当聚合类型为“最大值”的度量值 Memoryusageint 达到阈值“15 分钟”时,你将收到警报。

要指定的日志查询详细信息的屏幕截图。

设置详细信息后,可以查看警报准确性条件。

要设置的警报条件的屏幕截图。

警报操作和详细信息

若要确定如何接收群集警报的通知,请如图所示使用“操作”选项卡。 可以创建新的操作组,或者为现有操作组设置警报规则。 可以选择通过电子邮件、事件中心等接收通知。

操作组操作选项的屏幕截图。

设置操作后,可以在“详细信息”选项卡中设置警报严重性、名称、说明和区域。 选择“查看 + 创建”以最后一次检查所有警报设置并创建警报。

警报操作详细信息的屏幕截图。

设置警报后,可以在“警报”选项卡中监视警报规则、操作组等。

监视警报的屏幕截图。

日志收集频率

默认情况下,每小时生成一次日志。 若要检查日志收集频率,请使用以下 PowerShell 命令:

get-clusterresource "sddc management" | get-clusterparameter

若要更改本地计算机上的日志生成频率,请更改 CacheDumpIntervalInSeconds 日志收集参数。

下面是日志记录频率设置为 15 分钟的示例。

get-clusterresource "sddc management" | set-clusterparameter -name "CacheDumpIntervalInSeconds" -value 900

注意

若要收集所有日志,请不要将频率设置为 15 分钟以下。

后续步骤

了解如何创建 Azure Monitor 警报规则