你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
监视您的 Azure 云环境
本文介绍如何跨 Azure 规划、配置和优化监视,同时集成来自其他云、本地和边缘环境的数据。 监视 Azure 云资产涉及持续观察和分析云资源和应用程序的性能、运行状况和安全性。 强大的监视策略包括主动监视,以提前捕获问题和反应性监视,以触发警报并在发生意外事件时自动响应。
了解监视范围
监视范围定义监视职责。 在云环境中,你分担监视责任,这因工作负荷而异。 了解监视职责,以便覆盖每个工作负荷的每个监视区域。 下表显示了必须基于每种工作负荷类型监视的内容。 基础结构服务(IaaS)和平台服务(PaaS)在 Azure 等云环境中运行。 软件服务(SaaS)是指Microsoft 365 等解决方案。
监视区域 | 本地监视 | IaaS 监控 | PaaS 监视 | SaaS 监视 |
---|---|---|---|---|
服务健康状况 | X | X | X | X |
安全 | X | X | X | X |
合规 | X | X | X | X |
成本 | X | X | X | X |
数据 | X | X | X | X |
代码和运行时 | X | X | X | |
云资源 | X | X | X | |
操作系统 | X | X | ||
虚拟化层 | X | X | ||
物理硬件 | X |
规划监视策略
监视策略概述了每个环境的监督要求。 你需要一个明确的计划来统一可见性和支持运营成熟度。 您需要通过结构化见解检测、诊断和预防整个系统中的问题。 方法如下:
建立监视路线图。 创建一个路线图,以解决三个渐进式的作成熟度级别:实时检测和响应问题、诊断当前或过去的问题,以及预测和防止将来的问题。 此路线图阐明了如何扩展监视功能,以便你可以确定改进的优先级、有效地分配资源并保持一致的可靠性。
确定需要监视的内容。 全面清查整个环境,包括 Azure、其他云、边缘部署和本地系统。 使用 Azure Resource Graph 资源管理器 查找所有 Azure 资源。 从示例查询开始,收集基线资源列表。 这种全面的方法有助于检测覆盖率差距,并确保从所有相关源捕获关键数据。 使用 Azure Arc 将监视数据从本地、其他云或边缘位置引入 Azure。
定义可靠性目标。 为每个工作负荷建立运行时间服务级别目标(SLO)、服务级别指标(SLI)和错误预算。 包括非功能要求,例如恢复时间目标(RTO)和恢复点目标(RPO)。 明确的目标为衡量运营成功和指导改进工作提供了基准。
定义数据收集要求。 确定必须收集哪些指标和日志,以便进行合规性、安全性和有效的问题诊断。 首先满足法规要求,然后遵循内部治理规则。 收集正确的数据有助于有效地审核、维护安全性和保持系统运行的最佳状态。 如果不知道要收集什么,请收集所有可用的日志和指标,以避免数据缺失并优化成本。 有关每个 Azure 服务的指南,请参阅 Azure 监视文档链接的完整列表。
定义数据保留要求。 决定必须保留监视数据的时间,以满足审核和合规性需求。 遵守内部治理策略,以将日志存储必要的时长。 适当的保留策略支持历史分析、支持法规合规性,并保留数据进行安全调查。
定义警报要求。 确定哪些关键事件必须触发警报,例如资源中断、性能阈值泄露或安全异常。 按严重性对警报进行分类,概述响应作,并指定升级路径,以便紧急事件到达正确的团队。 使用 Azure Monitor 警报 来配置警报规则、通知和操作组。 主动警报可确保快速响应并最大程度地减少停机时间。
分配监视职责。 你负有两个主要责任:监视整个云资产并监视每个工作负荷。 定义基线监视要求,指定必须捕获的数据,并阐明谁拥有每个监视任务。 这些步骤可帮助你避免被忽视的问题、简化响应工作,并在整个组织中培养一致的做法。
测试和优化监视方法。 验证是否在正确的阈值捕获正确的数据并触发警报。 根据新发现调整数据收集和可靠性目标。 迭代改进有助于适应不断变化的业务需求、监视差距和维护最佳系统性能。
设计监视解决方案
设计监视解决方案是指创建用于收集和存储日志、指标和见解的系统。 设计良好的解决方案有助于满足运营、安全性和合规性需求。 方法如下:
合并监视解决方案。 使用一个平台监视云、本地、公有云和边缘环境。 此合并方法简化了作,防止频繁的工具切换,并使团队能够快速检测和解决问题。 首先将 Azure Monitor 用作你的主要监视解决方案。 使用 Azure Arc 从其他云、本地和边缘部署收集数据。 使用可用的 Azure 监视工具 并将其数据发送到 Azure Monitor,以便集中查看。
旨在集中监视数据。 更倾向于存储日志和指标的位置较少。 更少的位置可以更轻松地管理和关联数据。 有理由有多个位置来存储和分析监视数据。 例如,安全作、数据驻留、数据复原能力和 Azure 租户数量都是可能需要将监视数据存储在多个位置的因素。 有关详细信息,请参阅设计 Log Analytics 工作区体系结构。
了解发送监视数据的位置。 收集日志和指标,并将其存储在符合运营需求的目标中。 从以下主要 Azure 目标中进行选择:Azure Log Analytics 工作区(交互式和长期存储)、Azure 存储帐户(长期存储)、Azure 事件中心(第三方 SIEM 集成)、Azure 数据资源管理器和合作伙伴解决方案。 如果已正式发布,请使用数据收集规则配置集中式监视数据收集。 否则,请使用诊断设置。
自动监视。 希望通过自动化方式在更大的环境中强制实施监视策略。
使用 Azure Policy。 使用 Azure Policy 强制执行收集的内容和发送位置。 可以从内置监视策略开始,以强制实施诊断设置。 可以根据需要生成自定义策略。 还可以使用 Azure Policy 管理 数据收集规则,在虚拟机上安装 Azure Monitor 代理。 使用 Azure Policy 在 Azure 登陆区域中定义 Azure Monitor 警报基线。
使用基础结构即代码 (IaC)。 使用 基础设施即代码 大规模配置和部署 Azure Monitor 资源。 此方法是管理资源的专业方法。
优化监视支出。 首先估算监视解决方案的成本。 如果有足够的数据,请使用 Azure 定价计算器 来估算集合的长期成本,并调整集合设置以满足预算。 随着时间的推移,定期检查你收集和存储的监视数据。 收集的内容、存储的位置以及存储的时间长度都会影响成本。 调整存储保留期以优化成本,而无需停止收集某些监视数据。 若要进一步优化成本,请停止收集无益的日志。 有关更多成本优化提示,请参阅 Azure Monitor 中的成本优化。
配置监控
配置监视涉及设置工具和参数,以便跨 Azure 环境收集见解。 适当的配置提供主动问题检测,并与云资产中的规范性治理保持一致。 方法如下:
监视服务运行状况
服务可用性监控侧重于检测云环境中的服务中断、干扰和资源问题。 你希望实时了解潜在问题,以保持一致的操作。 监视服务运行状况是监视云资产的最低要求。 方法如下:
监视底层服务运行状况。 您需要了解正在使用的云服务和区域发生的任何底层故障。 使用 Azure 服务运行状况接收有关服务问题、计划内维护和其他影响 Azure 服务和区域的更改的免费警报。
监视基础资源运行状况。 需要一种方法来诊断和解决云资源中的基础问题。 还需要这些中断的历史记录,以便可以报告任何服务级别协议(SLA)违规。 使用 Azure 资源运行状况监视单个云资源的运行状况。
监控安全
监视安全性涉及跟踪标识交互、漏洞和网络活动以保护 Azure 资产。 需要持续的安全监视来保护数据并维护云环境中的合规性。 操作如下:
监视标识。 你需要了解用户交互、检测潜在的风险登录、排查登录问题以及审核标识更改,以确保环境的安全性和运行状况。 配置 Microsoft Entra 监视并收集满足安全性和合规性要求所需的日志。
监视安全漏洞。 需要一个安全监视解决方案来检测各种环境中的安全漏洞。 例如,使用 Microsoft Defender for Cloud 监视 Azure、其他公有云、边缘设备和本地专用网络中的安全漏洞。 使用 Microsoft Sentinel 来实现安全信息与事件管理 (SIEM) 和安全业务流程自动响应 (SOAR)。 Microsoft Sentinel 依赖于 Log Analytics 平台,因此你可以实现关键的紧密集成。
监视网络活动。 需要监视云中的网络流量以及云外部的网络。 网络监视可帮助你排查性能问题并维护网络安全。 使用网络观察程序监视 Azure 虚拟网络(使用 流日志 和 流量分析)。 使用 连接监视器 进行多云和本地网络监视。
监视工作负荷安全性。 有关工作负荷安全监视的信息,请参阅 Well-Architected Framework 有关监视和威胁检测的建议。
监督合规性
监视合规性可验证符合治理要求和行业法规。 必须跟踪合规性,以减少风险,并遵循管理良好的 Azure 资产的规范性标准。 方法如下:
监视配置符合性。 需要方法使环境与治理策略保持一致。 使用 Azure Policy 自动审核和强制执行特定策略。 它还监控这些策略的合规情况。 Azure Policy 是免费的,提供符合许多 法规标准的内置策略,,例如 ISO 270001、NIST SP 800-53、PCI DSS和 欧盟一般数据保护条例(GDPR)。
监视数据符合性。 需要跨多云环境自动评估和管理合规性,从而简化合规性并降低风险。 使用 Microsoft Purview 合规性管理器 来评估和管理多云环境中的合规性。
监视工作负荷符合性。 有关工作负荷符合性监视的信息,请参阅 Well-Architected Framework 关于建立安全基线 的 建议
监控成本
监视成本是指跟踪和控制 Azure 和其他环境中的云支出。 你希望成本透明度来优化资源使用情况,并遵循财务治理的规范性指南。 其方法如下:
了解服务定价。 确保了解所使用的服务和功能的定价。 你想要避免计费周期出现意外。 使用 Azure 定价信息。
监视云支出。 应使用可用工具来监视环境中的成本。 对于 Azure 支出,请使用 Azure 成本管理 设置预算、获取 成本优化建议,触发 成本异常警报,并 分析成本。
定期查看云支出。 将成本评审纳入常规运营节奏。 定期评估允许及时识别支出模式,并有机会调整资源使用情况以优化成本。
监视工作负荷成本。 工作负荷成本监视,请参阅 Well-Architected 框架建议,了解如何 收集和查看成本数据 和 优化组件成本
监控数据
监视数据意味着跨 Azure、本地、多云和 SaaS 环境监视数据管理、保护和使用情况。 你需要数据可见性和安全性来维护合规性并保留 Azure 资产中的业务连续性。 方法如下:
监视企业数据。 你需要一种方法来管理和保护所有环境中的业务数据。 使用 Microsoft Purview 提供跨这些环境的数据可见性、安全性和合规性。
监视工作负荷数据。 对于工作负荷数据监视,请参阅有关 数据分类的 Well-Architected 框架建议、优化数据成本,以及 优化数据性能。
监视代码和运行时
在具体工作负载层面,您需要收集关于应用程序代码和执行的遥测数据(如应用程序日志、指标和跟踪),以识别问题并优化性能。 实时深入了解应用程序行为可实现规范性的故障排除和优化。
对于 Azure 中的工作负荷,请使用 Application Insights 收集运行时遥测(检测),以便识别性能瓶颈和错误。 借助 Application Insights,可以监视实时 Web 应用程序、检测性能异常,并深入了解用户交互,从而帮助你不断提高性能和可用性。 有关特定于工作负荷的代码和运行监视指南,请参阅 Well-Architected 框架:
工作负载监视区域 | 架构良好的框架指导 |
---|---|
卓越运营 | 检测应用程序 |
性能优化 | 确定关键流的性能优先级 有关优化代码和基础结构 的 建议 |
成本优化 | 优化代码成本 优化环境成本的建议 优化流成本 |
健康建模 | 针对工作负载的运行状况建模 |
监视云资源
监视云资源包括监视 Azure 中的控制平面活动、资源日志和性能指标。 你希望深入了解资源使用情况和更改,以保持安全性、合规性和卓越运营。 操作方法如下:
监视控制平面活动。 你需要知道谁在云环境中创建了、更新和删除了资源。 在 Azure 中,你希望监视所有订阅中的控制平面活动。 Azure 会自动捕获每个订阅的控制平面事件,这称为 Azure 活动日志。 创建诊断设置 将这些活动日志发送到正确的目标
收集云资源日志。 需要为每个云资源收集日志数据,以有效评估其运行状况并对其进行故障排除。 不同的服务具有不同类型的日志。 在 Azure 中,必须在每个服务上配置 Azure 资源日志 来收集这些日志。 如果不知道要收集什么,请收集所有可用的日志和指标,以避免数据差距,并稍后优化成本。 若要优化成本,请调整保留期,并在不需要的情况下从收集中消除某些日志。 收集的日志以及保留日志的时间应与合规性、安全性和业务连续性(根本原因分析)平衡成本。 有关详细信息,请参阅 Azure Monitor 成本优化最佳做法
收集资源指标。 需要了解云资源的运行状况和性能。 需要时序数据才能获取时间点数据来解决问题。 在 Azure 中,每个服务都会自动生成 Azure Monitor 指标。 在指标资源管理器中分析这些指标,并针对它们设置警报规则。 检查 Azure Monitor 指标的默认保持期。 如果需要将指标保留更长时间,请创建 诊断设置 存储在 Log Analytics 工作区中,以便分析和关联日志数据。 如果已正式发布,请使用数据收集规则配置集中式监视数据收集。
监视工作负荷资源。 有关特定于工作负荷的云资源监视指南,请参阅 Well-Architected 框架:
工作负荷监控区域 | 架构良好的框架指导 |
---|---|
Azure 服务监控 | Azure 服务指南(从卓越运营部分开始) |
可靠性 | 设计可靠监视和警报策略的建议 |
性能效率 | 有关定义性能目标的建议 收集工作负荷性能数据 |
配置警报
配置警报是指根据性能阈值或操作条件来设置通知。 你需要及时的警报来快速响应,并遵循事件管理的规范性指南。 操作如下:
主动识别健康问题。 需要为关键性能指标定义阈值以监视资源运行状况。 这种主动方法可确保及时检测潜在问题,并允许更快速的修正。 使用 Azure Monitor 警报。 如果不确定警报中使用的阈值,创建具有动态阈值的指标警报。 使用 Azure Monitor 基线警报作为起点。
定义警报的严重性。 设置一个系统来对每个警报的严重性进行分类。 将更高的严重性应用于对业务运营至关重要的资源,例如共享服务和业务线工作负荷。 对其他资源使用较低严重性级别。
通知利益干系人。 标识在触发警报时应接收通知的人员。 分散式方法将相关警报路由到正确的人员。 从一个灵活的方法开始,当资源出现异常情况时,向利益相关者发出警报。 为每个订阅至少配置一个操作组。 此方法可确保相关人员收到警报。 将电子邮件通知通道作为最低要求包含在内。 通知运营团队处理低严重性警报,并通知管理层处理高严重性警报。 有关详细信息,请参阅使用 Azure 逻辑应用自定义警报并与 IT 服务管理产品 (ITSM) 集成。
选择通知通道。 有效的通知策略可增强响应时间并缓解潜在影响。 根据需要使用电子邮件通知作为基线并添加短信或与事件管理系统集成。
可视化监视数据
可视化监视数据是指创建仪表板和报表,这些仪表板和报表以可访问的格式呈现关键指标。 清晰可视化支持明智的决策,并与管理 Azure 资产的规范性方法保持一致。 方法如下:
开发监视仪表板。 使用 Azure Monitor 工作簿 并创建 Azure 门户仪表板。 仪表板一目了然地提供快速见解。 通过工作簿,可以使用自定义查询和分析深入了解数据。 使用仪表板获得整体概况。 使用工作簿进行详细的故障排除或高级监视。 如果使用 Grafana,请使用托管 Grafana。
定制可视化效果。 自定义不同受众的图表和报表,无论是按团队(企业)细分还是整体业务影响(初创公司)。
Azure 监视工具
下面是本文中引用的所有 Azure 服务和工具的表。
类别 | 工具 | 描述 |
---|---|---|
多环境监视 | Azure Monitor | 充当从云和本地环境收集遥测数据的中心平台。 它监视资源性能和运行状态。 |
多环境扩展 | Azure Arc | 将 Azure 管理(包括监视和管理)扩展到本地、多云和边缘环境。 |
服务运行状况监视 | Azure 服务运行状况 | 提供有关影响 Azure 服务和区域的服务问题的实时状态和个性化信息、计划内维护和其他更改。 |
服务运行状况监视 | Azure 资源运行状况 | 跟踪单个云资源的健康状况,并记录随时间推移的问题,用于故障排除和报告。 |
安全监视 | Microsoft Entra 监视 | 跟踪标识交互、登录运行状况和审核对用户帐户的更改以保护访问权限。 |
安全监视 | 微软云安全防护 | 使用威胁检测、漏洞评估和安全建议保护云资源。 |
安全监视 | Microsoft Sentinel | 充当云原生 SIEM 和 SOAR 解决方案,用于分析安全遥测并自动响应威胁。 |
合规性监视 | Azure Policy | 通过自动评估强制实施组织标准和审核资源符合性。 |
合规性监视 | Microsoft Purview 合规性管理器 | 评估法规合规性并提供见解和建议,以降低风险。 |
成本监控 | Azure 定价计算器 | 估算 Azure 服务的成本,并帮助规划和优化监视支出。 |
成本监控 | Azure 成本管理 | 监视和管理云支出,同时提供优化资源使用情况和成本的见解。 |
数据监控 | Microsoft Purview | 通过提供发现、分类和风险管理功能来管理和保护企业数据。 |
代码和运行时监视 | 应用洞察 | 使用有关代码执行、性能和使用情况的遥测数据监视应用程序性能,以查明问题。 |
云资源监视 | Azure Resource Graph 浏览器 | 启用对 Azure 资源的查询和探索,提供对云环境的全面可见性。 |
云资源监视 | 网络观察程序 | 监视和诊断 Azure 虚拟网络和相关资源的网络性能和连接。 |
云资源监视 | 连接监视器 | 提供有关 Azure、本地和多云环境中连接的见解。 |
云资源监视 | Azure Monitor 代理 | 安装在虚拟机上,用于从操作系统和应用程序收集遥测数据。 |
云资源监视 | Azure 活动日志 | 记录控制平面作业,例如在不同 Azure 订阅中进行的资源创建、更新或删除。 |
云资源监视 | Azure 资源日志 | 从单个 Azure 服务捕获诊断数据,以便进行故障排除和性能分析。 |
云资源监视 | Azure Monitor 指标 | 从 Azure 服务收集时序性能数据,以跟踪资源运行状况和性能。 |
云资源监视 | 指标资源管理器 | 可视化和分析收集的指标数据,支持趋势分析和故障排除。 |
监视数据存储 | Azure Log Analytics 工作区 | 存储和启用对收集的日志数据的查询,以便进行详细的分析和长期保留。 |
监视数据存储 | Azure 存储帐户 | 提供安全、可缩放的存储,用于长期保留日志和监视数据。 |
监视数据存储 | Azure 事件中心 | 引入大量遥测和事件数据,支持与 SIEM 和其他分析平台集成。 |
监视数据存储 | Azure 数据资源管理器 | 提供对大量遥测数据的快速交互式分析,支持实时分析。 |
监控数据配置 | Azure Monitor 的基础结构即代码 | 使用代码大规模部署和管理 Azure Monitor 资源,确保跨环境配置一致。 |
监视数据配置 | Azure Monitor 中的诊断设置 | 将监视数据(日志和指标)路由到 Log Analytics、存储帐户或事件中心等目标。 |
监控数据配置 | 数据收集规则 | 标准化整个环境中监控数据的收集与读取。 |
警报 | Azure Monitor 警报 | 在指标或日志数据定义的阈值被泄露时通知你,使你能够及时对问题做出反应。 |
可视化 | Azure Monitor 工作簿 | 允许创建交互式报表和自定义仪表板来详细分析监视数据。 |
可视化 | Azure 门户仪表板 | 在可自定义的仪表板中显示关键监视数据,以便一目了然地了解。 |
可视化 | 托管 Grafana | 提供托管的 Grafana,用于监控数据的可视化,并与 Azure Monitor 集成以创建自定义仪表板。 |
Azure 服务监控文档
该表按字母顺序提供每个 Azure 服务的监视文章的近乎完整列表。