Compartir a través de


Solución de problemas de clúster con el identificador de evento 1135

Este artículo le ayuda a diagnosticar y resolver el identificador de evento 1135, que se puede registrar durante el inicio del servicio de clúster en el entorno de clústeres de conmutación por error.

Se aplica a: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, versiones 21H2 y 20H2

Pruebe nuestro agente virtual: puede ayudarle a identificar y corregir rápidamente problemas comunes de replicación de Active Directory.

Página de inicio

El identificador de evento 1135 indica que uno o varios nodos de clúster se quitaron de la pertenencia activa al clúster de conmutación por error. Puede ir acompañado de los siguientes síntomas:

Como paso inicial de solución de problemas, se recomienda realizar una validación y las pruebas de red para asegurarse de que no haya errores de configuración que puedan ocasionar problemas.

El servicio de clúster es el componente de software esencial que controla todos los aspectos de la operación del clúster de conmutación por error y administra la base de datos de configuración del clúster. Si ve el identificador de evento 1135, se recomienda instalar las correcciones mencionadas en los artículos siguientes y reiniciar todos los nodos del clúster, observe si el problema se vuelve a repetir.

Compruebe si el servicio de clúster se ejecuta en todos los nodos

Siga el siguiente comando de acuerdo con el sistema operativo Windows para validar que el servicio de clúster se ejecuta continuamente y está disponible.

Para el clúster de Windows Server 2008 R2

En un símbolo del sistema con privilegios elevados, ejecute cluster.exe node /stat.

Para un clúster de Windows Server 2012 y Windows Server 2012 R2

Ejecute el siguiente cmdlet de PowerShell: Get-ClusterResource

¿El servicio de clúster se ejecuta continuamente y está disponible en todos los nodos?

Varios escenarios del identificador de evento 1135

Queremos que eche un vistazo más detallado a los registros de eventos del sistema de todos los nodos del clúster. Revise el identificador de evento 1135 que ve en los nodos y copie todas las instancias de este evento. Esto le permitirá verlos y revisarlos.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Hay tres escenarios típicos:

Escenario A

Está viendo todos los eventos y todos los nodos del clúster que indican que NODE A había perdido la comunicación.

Diagrama que muestra que el nodo A, el nodo B y el nodo C se comunican correctamente.

Diagrama que muestra que el nodo A ha perdido la comunicación con el nodo B y el nodo C.

Puede ser posible que cuando vea los registros del sistema en NODE A, tiene eventos para todos los nodos restantes del clúster.

Solución

Esto sugiere que en el momento de la incidencia, debido a la congestión de la red o por otro motivo, se perdió la comunicación con el Nodo A.

Debe revisar y validar los problemas de configuración y comunicación de red. Recuerde buscar problemas relacionados con el Nodo A.

Escenario B

Está viendo los eventos en los nodos y vamos a decir que el clúster está disperso en dos sitios. NODE A, NODE B y NODE C en el sitio 1 y NODE D & NODE E en el sitio 2.

Diagrama que muestra que el Sitio 1 se comunica correctamente con el Sitio 2 a través de un vínculo WAN.

En los nodos A, B y C, verá que los eventos registrados son para la conectividad con los nodos D & E. Del mismo modo, cuando vea los eventos en nodos D & E, los eventos sugieren que perdimos la comunicación con A, B y C.

Diagrama que muestra que el sitio 1 ha perdido la conexión de vínculo WAN con el sitio 2.

Solución

Si ve una actividad similar, es indicativo de que se produjo un error de comunicación, a través del vínculo que conecta estos sitios. Se recomienda revisar la conexión entre los sitios; si se trata de una conexión WAN, se recomienda comprobar la conectividad con el ISP.

Escenario C

Está examinando los eventos de los nodos y verá que los nombres de los nodos no se contabilizan con ningún patrón determinado. Supongamos que el clúster está disperso en dos sitios. NODE A, NODE B y NODE C en el sitio 1 y NODE D & NODE E en el sitio 2.

  • En el Nodo A: ve eventos para los Nodos B, D, E.
  • En el Nodo B: ve eventos para los Nodos C, D, E.
  • En el Nodo C: ve eventos para los Nodos A, B, E.
  • En el Nodo D: ve eventos para los Nodos A, C, E.
  • En el Nodo E: ve eventos para los Nodos B, C, D.
  • O cualquier otra combinación.

Diagrama del escenario C que muestra que el clúster está disperso entre dos sitios.

Solución

Tales eventos son posibles cuando los canales de red entre los nodos están obstruidos y los mensajes de comunicación del clúster no llegan a tiempo, lo que hace que este sienta que la comunicación entre los nodos se ha perdido, y esto da lugar a la eliminación de nodos de la pertenencia al clúster.

Revisión de las redes en clúster

Se recomienda revisar las redes en clúster mediante la comprobación de las tres opciones siguientes una a una para continuar con esta guía de solución de problemas.

Búsqueda de la exclusión de antivirus

Excluya las siguientes ubicaciones del sistema de archivos del examen de virus en un servidor que ejecuta servicios de clúster:

  • Ruta de acceso del testigo de FileShare
  • Carpeta %Systemroot%\Cluster

Configure el componente de examen en tiempo real dentro del software antivirus para excluir los directorios y archivos siguientes:

  • Directorio de configuración de máquina virtual predeterminado (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • Directorios personalizados de configuración de máquina virtual

  • Directorio de disco duro virtual predeterminado (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • Directorios personalizados de unidad de disco duro virtual

  • Directorios de datos de replicación personalizados, si usa réplica de Hyper-V

  • Directorios de instantáneas

  • mms.exe

    Nota:

    Es posible que este archivo tenga que configurarse como una exclusión de procesos dentro del software antivirus.

  • Vmwp.exe

    Nota

    Es posible que este archivo tenga que configurarse como una exclusión de procesos dentro del software antivirus.

Además, al usar la migración en vivo junto con volúmenes compartidos de clúster, excluya la ruta de acceso CSV C:\Clusterstorage y todos sus subdirectorios. Si está solucionando problemas de conmutación por error o problemas generales con los servicios de clúster y el software antivirus está instalado, desinstale temporalmente el software antivirus o compruebe con el fabricante del software para determinar si el software antivirus funciona con los servicios de clúster. En la mayoría de los casos, no basta con deshabilitar el software antivirus. Incluso si lo deshabilita, el controlador de filtro se sigue cargando al reiniciar el equipo.

Comprobación de la configuración del puerto de red en el firewall

El servicio de clúster controla las operaciones del clúster del servidor y administra la base de datos del clúster. Un clúster es una colección de equipos independientes que actúan como un solo equipo. Los administradores, programadores y usuarios ven el clúster como un único sistema. El software distribuye los datos entre los nodos del clúster. Si se produce un error en un nodo, otros nodos proporcionan los servicios y los datos que anteriormente suministró el nodo que falta. Cuando se agrega o repara un nodo, el software de clúster migra algunos datos a ese nodo.

Nombre del servicio del sistema: ClusSvc

Application Protocolo Puertos
Servicio de clúster UDP 3343
Servicio de clúster TCP 3343 (este puerto es necesario durante una operación de combinación de nodos).
RPC TCP 135
Administración de clúster UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
Puertos UDP elevados asignados aleatoriamente** UDP Número de puertos aleatorios entre 1024 y 65535
Número de puertos aleatorios entre 49152 y 65535***

Nota:

Además, para una validación correcta en clústeres de conmutación por error de Windows en Windows Server 2008 y versiones posteriores, permita el tráfico entrante y saliente para ICMP4, ICMP6.

Este es el intervalo en Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 y Windows Vista.

Además, ejecute el siguiente comando para comprobar la configuración del puerto de red en el firewall. Por ejemplo: este comando ayuda a determinar el puerto 3343 disponible (abierto) usado para el clúster de conmutación por error:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

Ejecución del informe validación del clúster para ver los errores o advertencias

La herramienta de validación del clúster ejecuta un conjunto de pruebas para comprobar que el hardware y la configuración sean compatibles con los clústeres de conmutación por error.

Siga estas instrucciones:

  1. Ejecute el informe de validación del clúster para ver si hay errores o advertencias. Para más información, consulte Descripción de pruebas de validación del clúster: red.

    Captura de pantalla de los resultados después de ejecutar el informe validación del clúster para detectar errores o advertencias.

  2. Compruebe si hay advertencias y errores en las redes. Para más información, consulte Descripción de pruebas de validación del clúster: red.

    Captura de pantalla de Resultados por categoría.

    Captura de pantalla de Validación de la configuración del Firewall de Windows en Red.

Comprobación del orden de enlaces de red de la lista

En esta prueba se muestra el orden en el que las redes están enlazadas a los adaptadores de cada nodo.

En la pestaña Adaptadores y enlaces se enumeran las conexiones en el orden en que los servicios de red acceden a las conexiones. El orden de estas conexiones refleja el orden en que las llamadas o paquetes TCP/IP genéricos se envían a la conexión.

Siga los pasos siguientes para cambiar el orden de enlace de los adaptadores de red:

  1. Seleccione Inicio, Ejecutar, escriba ncpa.cpl y, a continuación, seleccione Aceptar. Puede ver las conexiones disponibles en la sección LAN e Internet de alta velocidad de la ventana Conexiones de red.
  2. En el menú Opciones avanzadas, seleccione Configuración avanzada y, a continuación, seleccione la pestaña Adaptadores y enlaces.
  3. En el área Conexiones, seleccione la conexión que quiere mover más arriba de la lista. Use los botones de flecha para mover la conexión. Como regla general, la tarjeta que se comunica con la red (conectividad de dominio, enrutamiento a otras redes, etc. debe ser la primera tarjeta enlazada (parte superior de la lista).

Los nodos de clúster son sistemas de host múltiple. La prioridad de red afecta a la conectividad de red saliente del cliente DNS. Los adaptadores de red usados para la comunicación de cliente deben estar al principio en el orden de enlace. Las redes no enrutadas se pueden colocar con una prioridad más baja. En Windows Server 2012 y Windows Server 2012 R2, el adaptador de controlador de red de clúster (NETFT.SYS) se coloca automáticamente en la parte inferior de la lista de pedidos de enlace.

Comprobación de la validación de la comunicación de red

La latencia en la red también puede provocar que esto suceda. Es posible que los paquetes no se pierdan entre los nodos, pero pueden no llegar a los nodos lo suficientemente rápido antes de que expire el período de tiempo de espera.

esta prueba se encarga de validar que los servidores probados se puedan comunicar con una latencia aceptable en todas las redes.

Por ejemplo, en "Validar la comunicación de red", puede ver los siguientes mensajes para problemas de latencia de red:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

En el caso del clúster multisitio, puede aumentar los valores de tiempo de espera. Para más información, consulte Configuración de latidos y DNS en un clúster de conmutación por error de varios sitios.

En caso de problemas de conectividad WAN; acuda al ISP.

Compruebe si encuentra alguno de los siguientes problemas.

Pérdida de paquetes de red entre nodos
  1. Comprobación de la pérdida de paquetes mediante el rendimiento

    Si el paquete se pierde en la conexión en algún punto entre los nodos, se producirá un error en los latidos. Podemos averiguar fácilmente si se trata de un problema usando el Monitor de rendimiento para ver el contador "Interfaz de red\Paquetes recibidos descartados". Cuando haya agregado este contador, examine los números Promedio, Mínimo y Máximo y, si su valor es superior a cero, el búfer de recepción debe ajustarse para el adaptador.

    Captura de pantalla de la ventana Agregar contadores.

    Si experimenta la pérdida de paquetes de red en la plataforma de virtualización de VMware, consulte la sección "Clúster instalado en la plataforma de virtualización de VMware".

  2. Actualización de los controladores de NIC

    Este problema puede producirse debido a controladores NIC, componentes de integración (IC) o VmTools obsoletos, o adaptadores NIC defectuosos. Si se pierden paquetes de red entre nodos de máquinas físicas, actualice el controlador del adaptador de red. Controladores de tarjeta de red o firmware antiguos u obsoletos. En ocasiones, una simple configuración errónea de la tarjeta de red o el conmutador también puede provocar la pérdida de latidos.

Clúster instalado en la plataforma de virtualización de VMware

Compruebe los problemas del adaptador de VMware en el caso del entorno de VMware.

Este problema puede producirse si los paquetes se descartan durante ráfagas de tráfico elevadas. Asegúrese de que no se produzca ningún filtrado de tráfico (por ejemplo, con un filtro de correo). Después de eliminar esta posibilidad, aumente gradualmente el número de búferes en el sistema operativo invitado y compruebe si todo funciona correctamente.

Para reducir las caídas de tráfico de ráfaga, siga estos pasos:

  1. Seleccione Inicio, seleccione Ejecutar, escriba devmgmt.msc y presione Entrar.
  2. Expanda Adaptadores de red, haga clic con el botón derecho en vmxnet3 y seleccione Propiedades.
  3. Seleccione la pestaña Opciones avanzadas.
  4. Seleccione Small Rx Buffers (Búferes de rx pequeños ) y aumente el valor. El valor predeterminado es 512 y el máximo es 8192.
  5. Seleccione Rx Ring #1 Size (Anillo rx n.º 1 ) y aumente el valor. El valor predeterminado es 1024 y el máximo es 4096.

Consulte los artículos siguientes para comprobar los problemas del adaptador de VMware en caso de entorno de VMware:

Observar si hay congestión en la red

La congestión de la red también puede provocar problemas de conectividad de red.

Compruebe que la red esté configurada según las recomendaciones de MS y del proveedor. Consulte Configuración de redes de clústeres de conmutación por error de Windows.

comprobar la configuración de la red

Si sigue sin funcionar, compruebe si ha visto la red con particiones en la GUI del clúster o tiene habilitada la formación de equipos de NIC en la NIC de latido.

Si ve la red con particiones en la GUI del clúster, consulte Redes de clúster con particiones para solucionar el problema.

Si tiene habilitada la formación de equipos NIC en la NIC de latido, compruebe la funcionalidad del software de formación de equipos según la recomendación del proveedor de formación de equipos.

Actualización de los controladores de NIC

Este problema puede producirse debido a controladores NIC obsoletos o adaptadores de NIC defectuosos.

Si se pierden paquetes de red entre nodos de máquinas físicas, actualice el controlador del adaptador de red. Controladores de tarjeta de red o firmware antiguos u obsoletos.

En ocasiones, una simple configuración errónea de la tarjeta de red o el conmutador también puede provocar la pérdida de latidos.

comprobar la configuración de la red

Si sigue sin funcionar, compruebe si ha visto la red con particiones en la GUI del clúster o si tiene habilitada la formación de equipos de NIC en la NIC de latido.