确定 Analytics Platform System 的哪个群集节点失败

本文介绍如何确定发生群集故障转移且引发群集故障转移警报后失败的 Analytics Platform System (PDW) 节点的名称。 在排查群集故障转移问题时,必须确定在联系 Microsoft 帮助解决问题之前失败的节点的名称。

背景

为了在 SQL Server PDW 中实现高可用性,将控制节点和计算节点配置为 Windows 故障转移群集的主动或被动组件。 当主动服务器无法响应关键系统请求时,被动服务器会故障转移并执行失败的服务器的功能。

群集故障转移后,当 SQL Server PDW 报告节点状态时,被动服务器的状态已故障转移。 但是,目前还不清楚哪个服务器或节点发生故障,尤其是在发生故障的服务器仍然处于联机状态时。 要排查群集故障,必须确定故障转移的节点的名称。

管理控制台解决方案

查找发生故障的节点的名称

  1. 打开管理控制台。 有关管理控制台的详细信息,请参阅使用管理控制台监视设备 (Analytics Platform System)。 发生故障转移后,故障转移事件包含在 HEALTH 页上的警报数中。 对于 PDW 区域和设备的结构区域,有一个 HEALTH 页。 每个“运行状况”页都有一个“警报”选项卡。要了解有关警报的详细信息,请选择“运行状况”页、“警报”选项卡,然后选择警报。

系统视图解决方案

以下 SQL 语句演示如何使用 sys.dm_pdw_component_health_active_alerts 系统视图查找失败的服务器的名称。

SELECT  
SUBSTRING( component_instance_id, 2, charindex(' ', component_instance_id, 1)-2) AS failed_node_name,  
create_time AS failover_time  
FROM sys.dm_pdw_component_health_active_alerts  
WHERE alert_id = 500139  
ORDER BY failed_node_name;