使用 Insights 监视单个 Azure 本地版本 23H2 系统
适用于:Azure 本地版本 23H2
本文介绍如何使用 Insights 监视单个 Azure 本地系统。 有关多个 Azure 本地系统,请参阅 使用 Insights 监视多个 Azure 本地系统。
Insights 是 Azure Monitor 的一项功能,可快速开始监视 Azure 本地系统。 可以查看有关群集、节点、虚拟机和存储的关键指标、运行状况和使用情况信息。
请花点时间观看有关 Azure 本地见解的视频演练:
好处
适用于 Azure 本地的见解具有以下优势:
由 Azure 管理。 Insights 由 Azure 管理,可以通过 Azure 门户访问它,因此可确保它始终保持最新状态。 无需安装数据库或特殊软件。
可伸缩性。 Insights 能够同时跨多个订阅加载 400 多个群集信息集。 群集、域或物理位置没有限制。
可定制性。 Insights 体验是基于 Azure Monitor 工作簿模板构建的。 因此,你可以更改视图和查询、修改或设置与特定限制相符的阈值,并将这些自定义设置保存到工作簿中。 然后,可以将工作簿中的图表固定到 Azure 仪表板。
先决条件
下面是使用 Azure 本地见解的先决条件:
必须有权访问已部署和注册的 Azure 本地系统。
必须启用 Azure 资源的托管标识。 有关详细信息,请参阅启用增强管理。
启用 Insights
启用见解有助于通过提供有用的运行状况指标来监视当前与 Log Analytics 工作区关联的所有 Azure 本地系统。 Insights 安装 Azure Monitor 代理,并帮助你配置 数据收集规则(DCR), 以监视 Azure 本地系统。
若要大规模启用见解,请参阅 使用 Azure 策略大规模启用 Azure 本地见解。
按照以下步骤从Azure 门户启用 Insights:
在Azure 门户中,浏览到 Azure 本地资源页,然后选择系统。 在“功能”选项卡下,选择“Insights”。
在“Insights”页上,选择“开始”。
在“Insights 配置”页上,从“数据收集规则”下拉列表中选择现有的 DCR。 DCR 指定需要收集的事件日志和性能计数器,并将其存储在 Log Analytics 工作区中。 如果 DCR 尚不存在,Insights 会创建一个默认 DCR。 仅包括为 Insights 启用的 DCR。
(可选)还可以通过在“Insights 配置”页上选择“新建”来创建新的 DCR。
重要
我们强烈建议不要创建你自己的 DCR。 Insights 创建的 DCR 包括其操作所需的特殊数据流。 你可以编辑此 DCR 以收集更多数据,例如 Windows 和 Syslog 事件。 通过 AMA 安装创建的 DCR 的 DCR 名称中附加了前缀
AzureStackHCI-
。在“新建数据收集规则”页上,指定订阅、DCR 名称和数据收集终结点 (DCE) 名称。 DCE 用于访问配置服务以提取 Azure Monitor 代理的关联 DCR。 有关 DCE 的详细信息,请参阅 Azure Monitor 中的数据收集终结点。
注意
如果在代理上使用专用链接,则必须添加 DCE。 有关 AMA 网络设置的详细信息,请参阅定义 Azure Monitor 代理 网络设置。
选择“查看 + 创建”按钮。
如果尚未为不受监视的群集创建 DCR,则会创建一个 DCR 并启用性能计数器和 Windows 事件日志通道。
查看最终屏幕,其中显示了 DCR 名称、事件日志数量、性能计数器和存储了数据的 Log Analytics 工作区名称的摘要。 选择“设置”。
选择“设置”后,你会重定向到“扩展”页,在其中可以查看代理安装状态。 配置 Insights 后,AMA 会自动安装在群集的所有节点上。
转到 Azure 本地资源页,然后选择系统。 Insights 现在会在“功能”选项卡上显示为“已配置”:
数据收集规则
在具有 Azure Monitor 代理的计算机上启用 Insights 时,必须指定要使用的 DCR。 有关 DCR 的详细信息,请参阅 Azure Monitor 中的数据收集规则。
选项 | 说明 |
---|---|
性能计数器 | 指定要从操作系统收集哪些数据性能计数器。 必须为所有计算机指定此选项。 这些性能计数器用于填充 Insights 工作簿中的可视化效果。 目前,Insights 工作簿使用五个性能计数器 - Memory()\Available Bytes 、Network Interface()\Bytes Total/sec 、Processor(_Total)\% Processor Time 、RDMA Activity()\RDMA Inbound Bytes/sec 和 RDMA Activity()\RDMA Outbound Bytes/sec |
事件日志通道 | 指定要从操作系统收集哪些 Windows 事件日志。 必须为所有计算机指定此选项。 Windows 事件日志用于填充 Insights 工作簿中的可视化效果。 目前,数据是通过两个 Windows 事件日志通道收集的:- microsoft-windows-health/operational 和 microsoft-windows-sddc-management/operational |
Log Analytics 工作区 | 用于存储数据的工作区。 仅列出具有 Insights 的工作区。 |
事件通道
Microsoft-windows-sddc-management/operational
和 Microsoft-windows-health/operational
事件通道将添加到“Windows 事件日志”下的 Log Analytics 工作区。
通过收集这些日志,Insights 会显示各个节点、驱动器、卷和 VM 的运行状况。 默认情况下,将添加五个性能计数器。
性能计数器
默认情况下,将添加五个性能计数器:
下表介绍了受监视的性能计数器:
性能计数器 | 说明 |
---|---|
Memory(*)\Available Bytes | Available Bytes 是可立即分配给进程或供系统使用的物理内存量(以字节为单位)。 |
Network Interface(*)\Bytes Total/sec | 每个网络适配器上发送和接收字节(包括组帧字符)的速率。 Bytes Total/sec 是 Bytes Received/sec 和 Bytes Sent/sec 之和。 |
Processor(_Total)% Processor Time | 所有进程线程使用处理器执行指令所用的运行时间的百分比。 |
RDMA Activity(*)\RDMA Inbound Bytes/sec | 网络适配器每秒通过 RDMA 接收数据的速率。 |
RDMA Activity(*)\RDMA Outbound Bytes/sec | 网络适配器每秒通过 RDMA 发送数据的速率。 |
启用 Insights 后,收集数据最多可能需要 15 分钟。 完成该过程后,可以从左窗格的 “见解 ”菜单中查看群集运行状况的丰富可视化效果:
禁用 Insights
若要禁用 Insights,请执行以下步骤:
禁用 Insights 功能时,将删除数据收集规则与群集之间的关联,并且不再收集运行状况服务和 SDDC 管理日志;但是,不会删除现有的数据。 如果要删除这些数据,请转到你的 DCR 和 Log Analytics 工作区并手动删除。
更新 Insights
“Insights”磁贴在以下情况下会显示“需要更新”消息:
- 数据收集规则已更改。
- 已从 Windows 事件日志中删除运行状况事件。
- 已从 Log Analytics 工作区中删除五个性能计数器中的任何一个。
要再次启用 Insights,请执行以下步骤:
疑难解答
本部分提供有关解决使用 Azure 本地见解的问题的指导。
对未填充数据的空白工作簿页进行故障排除
问题。 你将看到一个空白的“工作簿”页,其中未填充任何数据,如以下屏幕截图所示:
可能的原因。 此问题可能有多种原因,例如最近配置的 Insights 或关联的 DCR 配置不当。
解决方案。 要排查此问题,可按顺序执行以下步骤:
- 如果最近配置了 Insights,请等待最多一小时,让 AMA 收集数据。
- 验证关联 DCR 的配置。 确保事件通道和性能计数器作为数据源添加到关联的 DCR,如“数据收集规则”这部分中所述。
- 如果在执行上述步骤后问题仍然存在,仍看不到任何数据,请与客户支持部门联系以获取帮助。
要查看更详细的故障排除指南,请参阅《Azure Monitor 代理故障排除指南》。
Insights 可视化效果
下表提供了启用 Insights 后所有资源的详细信息。
健康产业
提供群集上的运行状况故障。
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
故障 | 有关运行状况故障的简短说明。 单击链接时,会打开侧面板,其中包含详细信息。 | 无单位 | PoolCapacityThresholdExceeded |
错误资源类型 | 遇到错误的资源类型。 | 无单位 | StoragePool |
错误资源 ID | 遇到运行状况错误的资源的唯一 ID。 | 唯一 ID | {a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1}: SP:{b1b1b1b1-cccc-dddd-eeee-f2f2f2f2f2f2} |
Severity | 故障的严重性可能是“警告”或“严重”。 | 无单位 | 警告 |
初始故障时间 | 上次更新节点的时间戳。 | 日期/时间 | 2022/4/9 中午 12:15:42 |
节点
跃点数 | 说明 | 计价单位 | 示例 |
---|---|---|---|
节点 | 群集中节点的名称。 | 无单位 | VM-1 |
上次更新时间 | 上次更新节点的日期和时间。 | 日期/时间 | 2022/4/9 中午 12:15:42 |
Status | 群集中节点的运行状况。 | 它可以是“正常”、“警告”、“严重”和“其他” | 正常 |
CPU 使用率 | 进程使用 CPU 的时间百分比。 | 百分比 | 56% |
内存使用率 | 节点进程的内存使用量等于计数器 Process\Private Bytes 以及内存映射数据的大小。 | 百分比 | 16% |
逻辑处理器 | 逻辑处理器的数目。 | 计数 | 2 |
CPU | CPU 的数目。 | 计数 | 2 |
运行时间 | 机器(尤其是计算机)处于运行状态的时间。 | Timespan | 2.609 小时 |
站点 | 节点所属的站点的名称。 | 站点名称 | SiteA 的节点上运行 |
域名 | 节点所属的本地域。 | 无单位 | Contoso.local |
虚拟机
提供群集中每个节点上虚拟机的状态。 VM 可能处于以下状态之一:“正在运行”、“已停止”、“已失败”或“其他”(“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”)。
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
节点 | 节点的名称。 | 无单位 | Sample-VM-1 |
上次更新时间 | 这会提供上次更新节点的日期和时间 | 日期/时间 | 2022/4/9 中午 12:24:02 |
VM 总数 | 节点中的 VM 数。 | 计数 | 0 个正在运行,共 0 个 |
正在运行 | 在节点中运行的 VM 数。 | 计数 | 2 |
已停止 | 节点中停止的 VM 数。 | 计数 | 3 |
已失败 | 节点中 VM 数失败。 | 计数 | 2 |
其他 | 如果 VM 处于以下状态之一:“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”,则将该状态视为“其他”。 | 计数 | 2 |
存储
下表提供了群集中卷和驱动器的运行状况:
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
卷 | 卷的名称 | 无单位 | ClusterPerformanceHistory |
上次更新时间 | 上次更新存储的日期和时间。 | datetime | 2022/4/14 下午 2:58:55 |
状态 | 卷的状态。 | “正常”、“警告”、“严重”和“其他”。 | 正常 |
总容量 | 报告期内设备的总容量(以字节为单位)。 | 字节 | 2.5 GB |
可用容量 | 报告期间可用容量(以字节为单位)。 | 字节 | 20B |
Iops | 每秒输入/输出操作数。 | 每秒 | 45 个/秒 |
吞吐量 | 应用程序网关每秒提供的字节数。 | 每秒字节数 | 5 字节/秒 |
延迟 | 完成 I/O 请求所需的时间。 | Second | 0.0016 秒 |
复原 | 要从故障中恢复的容量。 最大化数据可用性。 | 无单位 | 三向镜像 |
重复数据删除 | 减少需要存储在磁盘上的数据的物理字节数的过程。 | 可用或不可用 | Yes/No |
文件系统 | 文件系统的类型。 | 无单位 | ReFS |
Azure Monitor 定价
启用监视可视化效果时,会从以下位置收集日志:
- 运行状况管理 (Microsoft-windows-health/operational)。
- SDDC 管理(Microsoft-Windows-SDDC-Management/Operational;事件 ID:3000、3001、3002、3003、3004)。
将根据引入数据量及 Log Analytics 工作区的数据保留设置向你收费。
Azure Monitor 采用即用即付定价,每个计费帐户每月首个 5 GB 免费。 由于定价可能因多种因素而异,例如所使用的 Azure 区域,请访问 Azure Monitor 定价计算器以获取最新的定价计算。