你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HDInsight 监视数据参考

本文包含此服务的所有监视参考信息。

请参阅监视 HDInsight,详细了解可为 Azure HDInsight 收集的数据以及如何使用这些数据。

指标

本部分列出了为此服务自动收集的所有平台指标。 这些指标也是 Azure Monitor 中支持的所有平台指标的全局列表的一部分。

有关指标保留的信息,请参阅 Azure Monitor 指标概述

Microsoft.HDInsight/clusters 支持的指标

下表列出了可用于 Microsoft.HDInsight/clusters 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称。
  • 单位 - 度量单位。
  • 聚合 - 默认的聚合类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔。 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置

类别:可用性

指标 REST API 中的名称 Unit 聚合 维度 时间粒度 DS 导出
已分类的网关请求数

按类别(1xx/2xx/3xx/4xx/5xx)统计的网关请求数
CategorizedGatewayRequests 计数 计数、总计(求和) HttpStatus PT1M、PT1H、P1D
网关请求

网关请求数
GatewayRequests 计数 计数、总计(求和) HttpStatus PT1M、PT1H、P1D
REST 代理使用者 RequestThroughput

向 Kafka REST 代理发出的使用者请求数
KafkaRestProxy.ConsumerRequest.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理使用者未成功的请求数

使用者请求异常数
KafkaRestProxy.ConsumerRequestFail.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理使用者 RequestLatency

通过 Kafka REST 代理的使用者请求中的消息延迟
KafkaRestProxy.ConsumerRequestTime.p95 毫秒 平均值 Machine, Topic PT1M、PT1H、P1D
REST 代理使用者请求积压工作

使用者 REST 代理队列长度
KafkaRestProxy.ConsumerRequestWaitingInQueueTime.p95 毫秒 平均值 Machine, Topic PT1M、PT1H、P1D
REST 代理制造者 MessageThroughput

通过 Kafka REST 代理的制造者消息数
KafkaRestProxy.MessagesIn.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理使用者 MessageThroughput

通过 Kafka REST 代理的使用者消息数
KafkaRestProxy.MessagesOut.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理 ConcurrentConnections

通过 Kafka REST 代理的并发连接数
KafkaRestProxy.OpenConnections 计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理制造者 RequestThroughput

向 Kafka REST 代理发出的制造者请求数
KafkaRestProxy.ProducerRequest.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理生成者未成功的请求数

生成者请求异常数
KafkaRestProxy.ProducerRequestFail.m1_delta 每秒计数 总计(总和) Machine, Topic PT1M、PT1H、P1D
REST 代理制造者 RequestLatency

通过 Kafka REST 代理的生成者请求中的消息延迟
KafkaRestProxy.ProducerRequestTime.p95 毫秒 平均值 Machine, Topic PT1M、PT1H、P1D
REST 代理生成者请求积压工作

生成者 REST 代理队列长度
KafkaRestProxy.ProducerRequestWaitingInQueueTime.p95 毫秒 平均值 Machine, Topic PT1M、PT1H、P1D
活动辅助角色数目

活动辅助角色数目
NumActiveWorkers 计数 平均值、最大值、最小值 MetricName PT1M、PT1H、P1D
挂起的 CPU

YARN 中挂起的 CPU 请求数
PendingCPU 计数 平均值、最大值、最小值 <无> PT1M、PT1H、P1D
挂起的内存

YARN 中挂起的内存请求数
PendingMemory 计数 平均值、最大值、最小值 <无> PT1M、PT1H、P1D

指标维度

有关指标维度定义的信息,请参阅多维指标

此服务具有以下与其指标关联的维度。

Microsoft.HDInsight/clusters 表的维度包括:

  • HttpStatus
  • 计算机
  • 主题
  • MetricName

资源日志

本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。

HDInsight 不使用 Azure Monitor 资源日志或诊断设置。 日志是通过其他方法收集的,包括使用 Log Analytics 代理。

Azure Monitor 日志表

本部分列出了与此服务相关的 Azure Monitor 日志表,日志分析可使用 Kusto 查询来查询这些表。 这些表包含资源日志数据,此外还可能包含其他数据,具体取决于所收集并路由到这些表的内容。

HDInsight 群集

Microsoft.HDInsight/Clusters

可用日志和指标因 HDInsight 群集类型而异。

日志表映射

新的 Azure Monitor 集成在 Log Analytics 工作区中实施新表。 下表显示了从经典 Azure Monitor 集成到新集成的日志表映射。

“新表”列显示新表的名称。 “说明”行描述在此表中提供的日志/指标的类型。 “经典表”列是经典 Azure Monitor 集成中的所有表的列表,其数据现在显示在新表中

注意

某些表是全新的,而不是基于以前的表。

常规工作负载表

新建表 说明 经典表
HDInsightAmbariSystemMetrics 从 Ambari 收集的系统指标。 指标现在来自群集中的每个节点(边缘节点除外),而不只是两个头节点。 每个指标现在都是一列,并且每个指标对每个记录报告一次。 metrics_cpu_nice_cl、metrics_cpu_system_cl、metrics_cpu_user_cl、metrics_memory_cache_CL、metrics_memory_swap_CL、metrics_memory_total_CLmetrics_memory_buffer_CL、metrics_load_1min_CL、metrics_load_cpu_CL、metrics_load_nodes_CL、metrics_load_procs_CL、metrics_network_in_CL、metrics_network_out_CL
HDInsightAmbariClusterAlerts 来自群集中每个节点(边缘节点除外)的 Ambari 群集警报。 每个警报都是此表中的一个记录。 metrics_cluster_alerts_CL
HDInsightSecurityLogs 来自 Ambari 审核和身份验证日志的记录。 log_ambari_audit_CL, log_auth_CL
HDInsightRangerAuditLogs 来自 ESP 群集的 Ranger 审核日志的所有记录。 ranger_audit_logs_CL
HDInsightGatewayAuditLogs_CL 网关节点审核信息。 与经典表的格式相同,仍位于“自定义日志”部分中。 log_gateway_Audit_CL

Spark 工作负载

注意

Spark 应用程序相关表已替换为 11 个新 Spark 表,这些表提供有关 Spark 工作负载的更多深入信息。

新建表 说明 经典表
HDInsightSparkLogs 与 Spark 及其相关组件(Livy 和 Jupyter)相关的所有日志。 log_livy_CL、log_jupyter_CL、log_spark_CL、log_sparkappsexecutors_CL、log_sparkappsdrivers_CL
HDInsightSparkApplicationEvents Spark 应用程序的事件信息,包括提交和完成时间、应用 ID 和 AppName。 可用于跟踪应用程序的启动和完成时间。
HDInsightSparkBlockManagerEvents 与 Spark 的块管理器相关的事件信息。 包括执行程序内存使用情况等信息。
HDInsightSparkEnvironmentEvents 与应用程序执行环境相关的事件信息,包括 Spark 部署模式、主设备以及有关执行程序的信息。
HDInsightSparkExecutorEvents 有关应用程序的 Spark 执行程序使用情况的事件信息。
HDInsightSparkExtraEvents 不符合任何其他 Spark 表的事件信息。
HDInsightSparkJobEvents 有关 Spark 作业的信息,其中包括其开始和结束时间、结果和关联阶段。
HDInsightSparkSqlExecutionEvents 有关 Spark SQL 查询的事件信息,包括其计划信息和说明以及开始和结束时间。
HDInsightSparkStageEvents 各个 Spark 阶段的事件信息,包括其开始时间和完成时间、失败状态和详细执行信息。
HDInsightSparkStageTaskAccumulables 各个阶段和任务的性能指标。
HDInsightTaskEvents 各个 Spark 任务的事件信息,包括开始和完成时间、关联阶段、执行状态和任务类型。
HDInsightJupyterNotebookEvents Jupyter Notebook 的事件信息。

Hadoop/YARN 工作负载

新建表 说明 经典表
HDInsightHadoopAndYarnMetrics 来自 Hadoop 和 YARN 框架的 JMX 指标。 包含与以前的自定义日志表相同的 JMX 指标,以及更重要的指标:时间线服务器、节点管理器和作业历史记录服务器。 每条记录包含一个指标。 metrics_resourcemanager_clustermetrics_CL、metrics_resourcemanager_jvm_CL、metrics_resourcemanager_queue_root_CL、metrics_resourcemanager_queue_root_joblauncher_CL、metrics_resourcemanager_queue_root_default_CL、metrics_resourcemanager_queue_root_thriftsvr_CL
HDInsightHadoopAndYarnLogs 从 Hadoop 和 YARN 框架生成的所有日志。 log_mrjobsummary_CL、log_resourcemanager_CL、log_timelineserver_CL、log_nodemanager_CL

Hive/LLAP 工作负载

新建表 说明 经典表
HDInsightHiveAndLLAPMetrics 来自 Hive 和 LLAP 框架的 JMX 指标。 包含与以前的自定义日志表相同的所有 JMX 指标,每条记录包含一个指标。 llap_metrics_hiveserver2_CL、llap_metrics_hs2_metrics_subsystemllap_metrics_jvm_CL、llap_metrics_llap_daemon_info_CL、llap_metrics_buddy_allocator_info_CL、llap_metrics_deamon_jvm_CL、llap_metrics_io_CL、llap_metrics_executor_metrics_CL、llap_metrics_metricssystem_stats_CL、llap_metrics_cache_CL
HDInsightHiveAndLLAPLogs 从 Hive、LLAP 及其相关组件(WebHCat 和 Zeppelin)生成的日志。 log_hivemetastore_CL log_hiveserver2_CL、log_hiveserve2interactive_CL、log_webhcat_CL、log_zeppelin_zeppelin_CL

Kafka 工作负载

新建表 说明 经典表
HDInsightKafkaMetrics 来自 Kafka 的 JMX 指标。 包含与旧的自定义日志表相同的所有 JMX 指标,以及其他重要指标。 每条记录包含一个指标。 metrics_kafka_CL
HDInsightKafkaLogs 从 Kafka 中转站生成的所有日志。 log_kafkaserver_CL、log_kafkacontroller_CL

HBase 工作负载

新建表 说明 经典表
HDInsightHBaseMetrics 来自 HBase 的 JMX 指标。 包含与以前的表相同的所有 JMX 指标。 与以前的表不同,每行包含一个指标。 metrics_regionserver_CL、metrics_regionserver_wal_CL、metrics_regionserver_ipc_CL、metrics_regionserver_os_CL、metrics_regionserver_replication_CL、metrics_restserver_CL、metrics_restserver_jvm_CL、metrics_hmaster_assignmentmanager_CL、metrics_hmaster_ipc_CL、metrics_hmaser_os_CL、metrics_hmaster_balancer_CL、metrics_hmaster_jvm_CL、metrics_hmaster_CL、metrics_hmaster_fs_CL
HDInsightHBaseLogs 来自 HBase 及其相关组件(Phoenix 和 HDFS)的日志。 log_regionserver_CL、log_restserver_CL、log_phoenixserver_CL、log_hmaster_CL、log_hdfsnamenode_CL、log_garbage_collector_CL

Oozie 工作负载

新建表 说明 经典表
HDInsightOozieLogs 从 Oozie 框架生成的所有日志。 Log_oozie_CL

活动日志

链接表列出了可在此服务的活动日志中记录的操作。 这些操作是活动日志中所有可能的资源提供程序操作的子集。

有关活动日志条目架构的详细信息,请参阅活动日志架构