排查事件 ID 1135 的群集问题
本文可帮助你诊断和解决事件 ID 1135,在故障转移群集环境中启动群集服务期间可能会记录此事件。
适用于: Windows Server 2022、Windows Server 2019、Windows Server 2016、Azure Stack HCI、版本 21H2 和 20H2
试试我们的虚拟代理 - 它可以帮助快速识别和修复常见的 Active Directory 复制问题。
起始页
事件 ID 1135 指示已从活动故障转移群集成员身份中删除一个或多个群集节点。 它可能伴有以下症状:
正在从活动故障转移群集成员身份中删除的群集故障转移\节点:
事件 ID 1069:
仲裁丢失的事件 ID 1177:
群集服务的事件 ID 1006 已停止:
建议将验证和网络测试作为一个初始故障排除步骤,以确保没有可能导致问题的配置问题。
检查是否安装了推荐的热修补程序
群集服务是控制故障转移群集操作的所有方面和管理群集配置数据库的基本软件组件。 如果看到事件 ID 1135,建议安装以下文章中提到的修补程序并重新启动群集的所有节点,然后观察是否再次出现问题。
- 推荐用于基于 Windows Server 2012 R2 的故障转移群集的修补程序和更新
- 推荐用于基于 Windows Server 2012 的故障转移群集的修补程序和更新
- Windows Server 2008 R2 SP1 故障转移群集的建议修补程序和更新
检查群集服务是否在所有节点上运行
根据 Windows 操作系统执行以下命令,验证群集服务是否持续运行且可用。
对于 Windows Server 2008 R2 群集
在提升的命令提示符处,运行 cluster.exe node /stat
。
对于 Windows Server 2012 和 Windows Server 2012 R2 群集
运行以下 PowerShell cmdlet: Get-ClusterResource
群集服务是否持续运行并在所有节点上可用?
事件 ID 1135 的几个场景
我们希望你仔细了解群集所有节点上的系统事件日志。 查看在节点上看到的事件 ID 1135,并复制此事件的所有实例。 这将便于你查看和审阅。
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
有三个典型的场景:
方案 A
你正在查看群集中的所有事件和所有节点,指示节点 A 已丢失通信。
在节点 A 上看到系统日志时,可能会有群集中所有剩余节点的事件。
解决方案
这完全表明,在问题发生时,无论是由于网络拥塞,还是由于其他原因,与节点 A 的通信已丢失。
应查看并验证网络配置和通信问题。 请记得查找与节点 A 相关的问题。
方案 B
你正在查看节点上的事件,让我们说群集分散在两个站点上。 站点 1 中的节点 A、节点 B 和 NODE C 和站点 2 中的 NODE D 和 NODE E。
在节点 A、B 和 C 上,可以看到记录的事件用于连接到节点 D 和 E。同样,当你在 Nodes D 和 E 上看到事件时,事件表明我们失去了与 A、B 和 C 的通信。
解决方案
如果你看到类似的活动,则表明通过连接这些站点的链接的通信失败。 建议查看所有站点的连接,如果是通过 WAN 连接建立的,我们建议你向 ISP 验证连接。
场景 C
你正在查看节点上的事件,你会看到节点的名称不会以任何特定模式表示。 假设群集分散在两个站点上。 站点 1 中的节点 A、节点 B 和节点 C 以及站点 2 的 NODE D 和 NODE E。
- 在节点 A 上:可以看到节点 B、D、E 的事件。
- 在节点 B 上:可以看到节点 C、D、E 的事件。
- 在节点 C 上:可以看到节点 A、B、E 的事件。
- 在节点 D 上:可以看到节点 A、C、E 的事件。
- 在节点 E 上:可以看到节点 B、C、D 的事件。
- 或任何其他组合。
解决方案
当节点之间的网络通道被截断且群集通信消息未及时到达时,可能会发生此类事件,从而使群集感知节点之间的通信丢失,导致从群集成员身份中删除节点。
查看群集网络
建议逐一检查以下三个选项来查看群集网络,以继续本故障排除指南。
检查防病毒排除
在运行群集服务的服务器上,从病毒扫描中排除以下文件系统位置:
- 文件共享见证的路径
- %Systemroot%\Cluster 文件夹
在防病毒软件中配置实时扫描组件,以排除以下目录和文件:
默认虚拟机配置目录 (C:\ProgramData\Microsoft\Windows\Hyper-V)
自定义虚拟机配置目录
默认虚拟硬盘驱动器目录 (C:\Users\Public\Documents\Hyper-V\虚拟硬盘)
自定义虚拟硬盘驱动器目录
如果使用 Hyper-V 副本,则自定义复制数据目录
快照目录
mms.exe
注意
此文件可能必须配置为防病毒软件中的进程排除。
Vmwp.exe
注意
此文件可能必须配置为防病毒软件中的进程排除。
此外,在将实时迁移与群集共享卷一起使用时,请排除 CSV 路径 C:\Clusterstorage 及其所有子目录。 如果要排查故障转移问题或安装群集服务和防病毒软件的一般问题,请暂时卸载防病毒软件,或与软件制造商进行检查,以确定防病毒软件是否适用于群集服务。 在大多数情况下,仅禁用防病毒软件是不够的。 即使禁用了防病毒软件,重启计算机时仍会加载筛选器驱动程序。
检查防火墙中的网络端口配置
群集服务控制服务器群集操作并管理群集数据库。 群集是独立的计算机集合,用作一个单一的计算机。 管理员、程序员和用户将群集视为单个系统。 软件在群集的节点之间分发数据。 如果一个节点发生故障,其他节点会提供以前由缺失节点提供的服务和数据。 添加或修复节点时,群集软件会将一些数据迁移到该节点。
系统服务名称:ClusSvc
应用程序 | 协议 | 端口 |
---|---|---|
群集服务 | UDP | 3343 |
群集服务 | TCP | 3343(节点加入操作期间需要此端口。) |
RPC | TCP | 135 |
群集管理员 | UDP | 137 |
Kerberos | UDP/TCP | 464* |
SMB | TCP | 445 |
随机分配的高 UDP 端口** | UDP | 介于 1024 和 65535 之间的随机端口号 介于 49152 和 65535 之间的随机端口号*** |
注意
此外,若要在 Windows Server 2008 及更高版本上的 Windows 故障转移群集上成功验证,请允许 ICMP4、ICMP6 的入站和出站流量。
- 有关详细信息,请参阅创建 Windows Server 2012 故障转移群集失败并出现错误 0xc000005e。
- 有关如何自定义这些端口的详细信息,请参阅 Windows 的服务概述和网络端口要求中的“参考”部分。
这是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 中的范围。
此外,运行以下命令以检查防火墙中的网络端口配置。 例如:此命令有助于确定用于故障转移群集的端口 3343 可用\打开:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
针对任何错误或警告运行群集验证报告
群集验证工具运行一套测试来验证硬件和设置是否与故障转移群集兼容。
请按照以下说明执行操作:
针对任何错误或警告运行群集验证报告。 有关详细信息,请参阅了解群集验证测试:网络
验证网络的警告和错误。 有关详细信息,请参阅了解群集验证测试:网络。
检查列表网络绑定顺序
此测试列出了网络绑定到每个节点上的适配器的顺序。
“ 适配器和绑定 ”选项卡按网络服务访问连接的顺序列出连接。 这些连接的顺序反映了通用 TCP/IP 调用/数据包发送到线路的顺序。
按照以下步骤更改网络适配器的绑定顺序:
- 选择“开始”,选择“运行”,键入ncpa.cpl,然后选择“确定”。 可以在“网络连接”窗口的“LAN 和高速 Internet”部分看到可用的连接。
- 在 “高级 ”菜单上,选择“ 高级设置”,然后选择“ 适配器和绑定 ”选项卡。
- 在“连接”区域中,选择要在列表中移动到更高位置的连接。 使用箭头按钮移动连接。 一般情况下,与网络(域连接、路由到其他网络等)的卡片应该是第一个绑定(列表顶部)卡。
群集节点是多宿主系统。 网络优先级会影响 DNS 客户端的出站网络连接。 用于客户端通信的网络适配器应位于绑定顺序的顶部。 可以将非路由网络置于较低的优先级。 在 Windows Server 2012 和 Windows Server 2012 R2 中,群集网络驱动程序(NETFT.SYS)适配器会自动放置在绑定顺序列表中的底部。
检查验证网络通信
网络上的延迟也可能导致这种情况发生。 数据包可能不会在节点之间丢失,但它们可能无法在超时期限到期之前以足够快的速度到达节点。
此测试可验证被测服务器能否以可接受的延迟在所有网络上进行通信。
例如:在“验证网络通信”下,你可能会看到以下有关网络延迟问题的消息:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
对于多站点群集,可以增加超时值。 有关详细信息,请参阅在多站点故障转移群集中配置检测信号和 DNS 设置。
有关任何 WAN 连接问题,请咨询 ISP。
检查是否遇到以下任何问题。
节点之间的网络数据包丢失
使用“性能”检查是否有数据包丢失
如果数据包在节点之间的线路上丢失,检测信号将失败。 通过使用性能监视器查看“网络接口\丢弃的已接收数据包”计数器,可以轻松地查明是否存在此问题。 添加此计数器后,查看“平均值”、“最小值”和“最大值”的数目,如果有任何值大于零,则需要针对适配器调整接收缓冲区。
如果在 VMware 虚拟化平台上遇到网络数据包丢失,请参阅“在 VMware 虚拟化平台中安装的群集”部分。
升级 NIC 驱动程序
出现此问题的原因可能是 NIC 驱动程序\集成组件 (IC)\VmTools 已过时或 NIC 适配器有故障。 如果物理计算机上的节点之间有网络数据包丢失,请更新网络适配器驱动程序。 还有旧的或过时的网卡驱动程序和/或固件。 有时,仅仅因为网卡或交换机的配置错误,也可能导致检测信号丢失。
VMware 虚拟化平台中安装的群集
验证 VMware 环境中的 VMware 适配器问题。
如果数据包在高流量突发期间被丢弃,可能会出现此问题。 确保没有发生流量筛选(例如,使用邮件筛选器)。 在排除这种可能性后,逐渐增加来宾操作系统中的缓冲区数量并进行验证。
若要减少突发流量丢弃次数,请执行以下步骤:
- 选择“开始”,选择“运行”,键入
devmgmt.msc
并按 Enter。 - 展开网络适配器,右键单击 vmxnet3 并选择“属性”。
- 选择“高级”选项卡。
- 选择 小型 Rx 缓冲区 并增加值。 默认值为 512,最大值为 8192。
- 选择 Rx Ring #1 大小并增加值。 默认值为 1024,最大值为 4096。
请查看以下文章,以在 VMware 环境中验证 VMware 适配器问题:
注意任何网络拥塞
网络拥塞也可能导致网络连接问题。
验证是否已根据 MS 和供应商的建议配置网络,请参阅配置 Windows 故障转移群集网络。
检查网络配置
如果仍然不起作用,请检查是否已在群集 GUI 中看到分区网络,或者是否已在检测信号 NIC 上启用 NIC 组合。
如果在群集 GUI 中看到分区网络,请参阅“已分区”群集网络来排查问题。
如果在检测信号 NIC 上启用了 NIC 组合,请根据组合供应商的建议检查组合软件功能。
升级 NIC 驱动程序
出现此问题的原因可能是 NIC 驱动程序已过时或 NIC 适配器有故障。
如果物理计算机上的节点之间有网络数据包丢失,请更新网络适配器驱动程序。 还有旧的或过时的网卡驱动程序和/或固件。
有时,仅仅因为网卡或交换机的配置错误,也可能导致检测信号丢失。
检查网络配置
如果仍然不起作用,请检查是否已在群集 GUI 中看到分区网络,还是已在检测信号 NIC 上启用 NIC 组合。