你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

监视云环境

你需要云环境的可观测性,以帮助确保工作负荷顺利运行,无论是业务所有者、平台所有者还是应用程序所有者。 需要了解以下条件:

  • 你的应用程序可用,并且它们是否符合客户的期望。
  • 存在任何需要调查的安全威胁。
  • 消耗成本在预期范围内。

监视 是收集、分析和处理遥测的过程,用于指示平台、资源和应用程序的运行状况。 有效的监视环境包括整个云资产,其中可能包括跨多个云和本地环境的资源。

可观测性 是一个系统的属性,用于测量其内部状态如何从其外部输出推断。 需要部署服务和进程来监视云环境。 你需要能够观察和了解在云中运行的服务的行为。

监视的好处

投资监视环境,在云的多个方面获得以下优势:

  • 可用性和性能: 监视资源,以帮助确保云服务和应用程序可用并按预期执行。 若要在影响用户之前识别和响应问题,请跟踪关键指标并配置警报规则。

  • 成本优化: 使用监视来跟踪资源使用情况,并根据需求缩放资源。 此方法有助于防止过度预配和未充分利用的资源,从而优化成本。 监视还可以识别并提醒你任何成本溢出或使用量意外高峰。

  • 合规性: 使用监视来维护活动的日志和记录,这有助于确保云服务遵守策略和法规。 使用此数据的报表可以帮助进行定期审核和合规性检查。

  • 安全性: 实施持续监视以帮助检测安全威胁和漏洞,以便可以立即采取行动来保护数据和资源。 还可以分析收集的数据以进行威胁检测和响应。

监视平台

有效的监视策略包括计算环境中的所有平台。 除了 Azure,可能还有本地、多云和边缘资源。 每个资源都需要相同的监视级别。 按照 Azure 指南云采用框架操作,并在统一操作策略中包含监视。 在此策略中,主云托管监视工具和其他管理工具。 监视工具监视所有平台中的所有资源。

显示统一操作策略的概念图。

监视类型

监视是一个多方面的规则,需要工具、流程和做法的组合。 下表分解了各种类型的监视。 不同的服务和功能可能会提供这些监视类型的不同组合。 但是,全面的监视环境包括计算环境中每个平台的所有这些监视类型。

类型 描述
基础结构 基础结构监视包括云资源的性能和可用性,例如虚拟机、存储资源和网络。 这种类型的监视有助于确保底层基础结构以最佳方式运行,这有助于维护依赖基础结构的应用程序的可用性和性能。
应用程序性能监视 (APM) APM 监视在云中运行的应用程序的性能和可用性。 它跟踪指标,例如响应时间、错误率和事务日志。 APM 可识别性能瓶颈,并帮助确保应用程序满足用户期望。
数据库 数据库监视跟踪云数据库的性能、可用性和资源消耗。 关键指标包括查询性能、索引使用情况和锁定状态。
网络 网络监视跟踪云环境中网络组件的性能和可用性。 指标包括带宽使用情况、延迟和数据包丢失。
安全性 安全监视跟踪和分析云环境中的安全事件和漏洞,包括未经授权的访问、恶意软件和合规性冲突。 有效的安全监视有助于保护敏感数据,确保符合法规要求,并防止成本高昂的安全漏洞。
合规性 合规性监视有助于确保云环境遵守法规和行业标准。 它跟踪配置、访问控制和数据处理做法,以帮助确保符合相关法规。
成本 成本监视跟踪云支出和资源使用情况,以确定节省成本的机会并防止预算溢出。 它监视资源使用情况、识别未充分利用的资源,并优化资源配置,以帮助降低成本。

共担责任

在本地环境中,你负责监视的所有方面,因为你拥有和管理所有计算资源。 在云中,你将此责任与云提供商共享。 根据所选的部署模型类型,监视云堆栈的各个层的责任可能会从你转移到云提供商。

在基础结构即服务(IaaS)部署中,云提供商监视基础云平台,例如物理基础结构和虚拟化层。 监视部署到云平台的虚拟机上运行的操作系统、应用程序和数据。 当部署模型上移堆栈时,云提供商将承担更多责任来监视环境。 这种责任最终导致软件即服务(SaaS)部署,因为你将监视责任转移到整个堆栈的云提供商,包括应用程序和数据。

显示云中监视的共同责任的关系图。

可以使用云提供商的监视工具监视堆栈的层,但你负责配置这些工具和分析它们收集的数据。 你需要向组织的各个成员授予访问权限,并创建仪表板和警报,帮助他们区分关键信息。 你可能还需要将这些组件与组织使用的其他工具和票证系统集成。

云提供商必须为提供给内部客户的堆栈层执行相同类型的服务。 他们必须持续监视他们与你签订的平台的运行状况和性能。 它们为你提供仪表板和警报,以主动通知你任何服务问题。 与内部客户一样,你不需要了解云提供商如何监视其平台的复杂性,只有它们符合你与他们签订的服务级别协议。

角色和职责

大多数企业组织都有一个集中运营团队,用于监视云环境的整体运行状况和性能。

此团队通常:

  • 设置整个公司的策略。
  • 执行监视环境的集中配置。
  • 向组织中的利益干系人委派权限,这些利益干系人需要访问与其应用程序和服务相关的监视数据。

组织具有多个角色来维护监视环境,并且需要访问监视数据来执行其作业功能。 每个角色都有不同的要求,可根据其特定职责监视数据。 根据组织的规模,你可能有多个个人来填补每个角色,或者你可能有一个填充多个角色的个人。

各个组织可能会以不同的方式分配职责。 下表显示了典型组织的角色和职责示例。

角色 说明
云架构师 云架构师设计和监督云基础结构,以帮助确保它满足组织的业务目标。 云架构师侧重于云体系结构的可靠性、安全性和可伸缩性。 他们需要高级遥测来全面了解数字资产。 此遥测包括资源使用情况指标、APM 指标、成本和计费见解以及合规性报告。
平台工程师 平台工程师构建和管理开发人员用于部署其应用程序的平台。 平台工程师可以创建持续集成和持续交付(CI/CD)管道,管理云基础结构即代码(IaC),并确保平台的可伸缩性和可靠性。 平台工程师需要有关平台操作状态的遥测数据。 此遥测包括容器性能指标、业务流程日志、IaC 验证和服务可用性。
系统管理员 系统管理员管理和维护云中的服务器、操作系统和其他基础结构组件。 它们执行备份、排查问题并确保系统处于最新状态。 系统管理员需要服务器和 OS 级别的遥测数据,包括 CPU、内存和磁盘使用情况、网络性能和系统日志。
安全工程师 安全工程师实施和管理安全措施,以帮助保护数据和应用程序免受威胁。 安全工程师处理从标识管理到威胁检测和响应的所有内容。 他们使用有关安全事件的遥测数据,包括访问日志、威胁检测警报、漏洞评估和合规性指标。
网络管理员 网络管理员管理和维护云网络,以帮助确保数据在服务器、应用程序和用户之间安全高效地流动。 网络管理员处理网络配置、监视性能并实施安全措施。 它们需要以网络为中心的遥测数据,包括网络流量分析、延迟度量、数据包丢失和防火墙日志。
数据库管理员(DBA) DBA 管理和维护数据库,以帮助确保数据完整性、性能和可用性。 DBA 处理数据库备份和恢复,并优化查询以提高效率。 它们使用有关数据库性能和完整性的遥测数据,包括查询性能指标、数据库响应时间、事务日志和备份或恢复状态。
开发人员 开发人员设计、编写、测试和维护在云平台上运行的软件。 开发人员创建功能和修复 bug,以帮助确保应用程序保持安全且性能良好。 它们需要特定于应用程序的遥测数据,包括错误率、延迟、响应时间、用户行为分析和功能使用情况指标。

Azure 便利化

Azure 有许多服务支持云环境中所需的不同类型的 监视 。 每个服务面向一个或多个 角色。 合并服务以提供全面监视环境所需的功能。

服务 说明 类型 角色
Azure Monitor Azure Monitor 位于 Azure 监视生态系统的中心。 它是一种全面的监视解决方案,可用于从云和本地环境收集、分析和响应监视数据。 Azure Monitor 提供对基础结构、网络和应用程序的完整监视。 它还提供数据平台和核心功能,例如数据分析、可视化和其他服务的警报。 基础设施
数据库
compliance
云架构师,
平台工程师,
系統管理員
DBA
Application Insights Application Insights 是 Azure Monitor 的一项功能,它为云应用程序提供 APM 监视。 APM 开发人员
Azure 网络观察程序 网络观察程序为 Azure 中的网络资源提供监视和可视化功能。 使用此服务监视、诊断和查看指标。 还可以启用或禁用 Azure 虚拟网络中资源的日志。 网络 网络管理员
Microsoft Sentinel Microsoft Sentinel 是云原生安全信息事件管理(SIEM)和安全业务流程自动响应(SOAR)解决方案。 它从 Azure 资源和其他组件引入安全遥测数据,以提供网络威胁检测、调查、响应和主动搜寻。 安全性 安全工程师
Microsoft Defender XDR Defender XDR 包括Microsoft安全解决方案,这些解决方案原生于 Azure 平台、客户端和服务器Microsoft操作系统,以及 Microsoft 365 中的 Office 365、Exchange Online 和 SharePoint 等应用程序。 每个安全解决方案都使用 AI 和机器学习来关联遥测数据,并确定是否需要调查。 当他们检测到不可接受的行为时,会采取措施防止中断。 安全性 安全工程师
Microsoft 成本管理 成本管理是一套工具,可用于分析、监视和优化Microsoft云成本。 成本管理可供有权访问计费帐户、订阅、资源组或管理组的任何人使用。 成本 云架构师
Azure 服务运行状况 服务运行状况提供 Azure 资源所依赖的服务的运行状况。 它可以通知你任何服务中断,并提供 Azure 服务和区域的运行状况的个性化视图。 基础结构 云提供商