你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure 备份指标监视备份的健康状况(预览版)

Azure 备份通过 Azure Monitor 提供一组内置指标,用于监视备份的健康状况。 你还可以在 Azure 备份中配置在指标超过定义的阈值时触发的警报规则。

Azure 备份提供以下主要功能:

  • 能够查看与备份项的备份和还原健康状况相关的现成指标以及相关趋势
  • 能够根据这些指标编写自定义预警规则,以有效地监视备份项的健康状况
  • 能够将触发的指标警报路由到 Azure Monitor支持的不同通知通道,例如电子邮件、ITSM、Webhook、逻辑应用等。

深入了解 Azure Monitor 指标

支持的方案

  • 针对以下工作负荷类型支持内置指标:

    • Azure VM,Azure VM 中的 SQL 数据库
    • Azure VM 中的 SAP HANA 数据库
    • Azure 文件
    • Azure Blob。

    目前不支持 HANA 实例工作负荷类型的指标。

  • 可以同时查看每个区域和订阅中所有恢复服务保管库的指标。 目前不支持在 Azure 门户中查看更大范围的指标。 同样的限制也适用于配置指标警报规则。

支持的指标

目前,Azure 备份支持以下指标:

  • 备份健康状况事件:此指标的值表示与备份作业健康状况相关的健康状况事件计数,这些事件在特定时间内为保管库触发。 备份作业完成后,Azure 备份服务会创建备份健康状况事件。 根据作业状态(例如成功或失败),与事件关联的维度也有所不同。

  • 还原健康状况事件:此指标的值表示与还原作业健康状况相关的健康状况事件计数,这些事件在特定时间内为保管库触发。 还原作业完成后,Azure 备份服务会创建还原健康状况事件。 根据作业状态(例如成功或失败),与事件关联的维度也有所不同。

注意

我们仅针对 Azure Blob 工作负载支持还原健康状况事件,因为备份是连续的,此处没有备份作业的概念。

默认情况下,在保管库级别显示计数。 若要查看特定备份项和作业状态的计数,可以按照任何支持的维度筛选度量值。

下表列出了备份健康状况事件和还原健康状况事件指标支持的维度:

维度名称 描述
数据源 ID 与作业关联的数据源的唯一 ID。

  • 对于 Azure 资源,例如 VM 和文件,包含资源的 Azure 资源管理器 ID (ARM ID)。
    例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM


  • 对于 VM 内的 SQL/HANA 数据库,包含 VM 的 ARM ID,后跟数据库的详细信息。
    例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM/providers/Microsoft.RecoveryServices/backupProtectedItem/SQLDataBase;mssqlserver;msdb


对于 SQL AG 数据库备份,“数据源 ID”字段为空,因为在这种情况下没有数据源 (VM)。 要查看 AG 内特定数据库的指标,请使用“备份实例 ID”字段。
数据源类型 与作业关联的数据源的类型。 以下是支持的数据源类型:

  • Microsoft.Compute/virtualMachines(Azure 虚拟机)


  • Microsoft.Storage/storageAccounts/fileServices/shares (Azure Files)


  • SQLDatabase(Azure VM 中的 SQL)


  • SAPHANADataBase(Azure VM 中的 SAP HANA)
备份实例 ID 与作业关联的备份实例的 ARM ID。

例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM
备份实例名称 备份实例的友好名称,便于用户阅读。 格式为 {protectedContainerName};{backupItemFriendlyName}

例如: testStorageAccount;testFileShare
运行状况状态 表示作业完成后备份项目的健康状况。 可以采用以下值之一: “正常”、“瞬时不正常”、“持续不正常”、“瞬时降级”、“持续降级”。

  • 备份/恢复作业成功后,会出现状态为“正常”的健康状况事件。


  • “不正常”表示服务错误导致作业失败,“降级”表示用户错误导致失败。


  • 当同一备份项重复发生相同错误时,状态将从“瞬时不正常/降级”变为“持续不正常/降级”。

在 Azure 门户中查看指标

若要查看 Azure 门户中的指标,请遵循以下步骤:

  1. 在 Azure 门户中,转到“业务连续性中心”>“监控 + 报告”>“指标”。

    或者,可以转到“恢复服务保管库”或“Azure Monitor”,然后选择“指标”。

  2. 若要筛选指标,请选择以下数据类型:

    • Scope
    • 订阅(一次只能选择 1 个)
    • 恢复服务保管库”/ “备份保管库”作为资源类型
    • 位置

    注意

    • 如果从“恢复服务保管库”/ “备份保管库”转到“指标”,则会预先选定指标范围。
    • 选择“恢复服务保管库”/ “备份保管库”作为资源类型,则可以跟踪与备份相关的内置指标 - 备份健康状况事件和还原健康状况事件
    • 目前,可以查看指标​​的范围为特定订阅和区域中的所有恢复服务保管库。 例如,TestSubscription1 中美国东部的所有恢复服务保管库。
  3. 选择要查看其指标的一个或一组保管库。

    目前,你可以查看指标的最大范围是:特定订阅和区域中的所有恢复服务保管库。 例如,TestSubscription1 中的美国东部的所有恢复服务保管库。

  4. 选择一个指标以查看备份健康状况事件或还原健康状况事件。

    这将呈现一个图表,显示保管库的健康状况事件计数。 可以使用屏幕顶部的筛选器来调整时间范围和聚合粒度。

    显示选择指标的过程的屏幕截图。

  5. 若要按不同的维度筛选指标,请单击“添加筛选器”按钮,然后选择相关维度值。

    • 例如,如果只想查看 Azure VM 备份的健康状况事件计数,则添加筛选器 Datasource Type = Microsoft.Compute/virtualMachines
    • 要查看保管库内特定数据源或备份实例的健康状况事件,则使用数据源 ID/备份实例 ID 筛选器。
    • 要仅查看失败备份的健康状况事件,请使用 HealthStatus 筛选器,并选择与不正常或降级健康状况对应的值。

    显示按不同维度筛选指标的过程的屏幕截图。

管理警报

若要查看触发的指标警报,请执行以下步骤:

  1. 在 Azure 门户中,转到“业务连续性中心”>“监控 + 报告”>“警报”。
  2. 按照“信号类型” = “指标”和“警报类型” = “已配置”进行筛选。
  3. 单击一条警报可查看有关该警报的更多详细信息并可更改其状态。

注意

警报有两个字段:监视条件(已触发/已解决)和“警报状态(新/已确认/已关闭)”。

  • 警报状态:可以编辑此字段(如下面的屏幕截图所示)。
  • 监视条件:无法编辑此字段。 此字段更多用于服务本身解决警报的场景。 例如,指标警报中的自动解决行为使用“监视条件”字段来解决警报。

数据源警报和全局警报

根据警报规则配置,触发的警报将显示在“业务连续性中心”的”警报“边栏选项卡上。

了解如何查看和筛选警报

注意

目前,对于 Blob 还原警报,仅在创建警报规则时同时选择 datasourceId 和 datasourceType 维度时,警报才会显示在数据源警报下。 如果未选择任何维度,警报将显示在全局警报下。

以编程方式访问指标

可以使用不同的编程客户端(例如 PowerShell、CLI 或 REST API)来访问指标功能。 有关更多详细信息,请参阅 Azure Monitor REST API 文档

示例警报方案

如果在过去 24 小时内保管库的所有触发的备份都成功,则会触发单个警报

预警规则:在过去 24 小时内,如果备份运行状况事件 < 1,则触发警报:

Dimensions["HealthStatus"] != "Healthy"

在每个失败的备份作业后触发警报

预警规则:在过去 5 分钟内,如果备份运行状况事件 > 0,则触发警报:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]=“所有当前值和未来值”

如果过去 24 小时内同一个项出现连续的备份失败,则触发警报

预警规则:在过去 24 小时内,如果备份运行状况事件 > 1,则触发警报:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]=“所有当前值和未来值”

如果在过去 24 小时内没有为项执行备份作业,则会触发警报

警报规则:如果以下项的备份运行状况事件在过去 24 小时内 < 1,则会触发警报

Dimensions["DatasourceId"]=“所有当前值和未来值”

后续步骤