Поделиться через


Устранение неполадок с кластером с идентификатором события 1135

Эта статья поможет вам диагностировать и устранить идентификатор события 1135, который может быть зарегистрирован во время запуска службы кластера в среде отказоустойчивой кластеризации.

Область применения: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, версии 21H2 и 20H2

Попробуйте наш виртуальный агент . Это поможет быстро определить и устранить распространенные проблемы репликации Active Directory.

Начальная страница

Идентификатор события 1135 указывает, что один или несколько узлов кластера были удалены из активного членства в отказоустойчивом кластере. Это может сопровождаться следующими симптомами:

Проверка и сетевые тесты будут рекомендуемы в качестве одного из начальных шагов по устранению неполадок, чтобы гарантировать отсутствие проблем конфигурации, которые могут быть причиной проблем.

Служба кластера — это основной программный компонент, который управляет всеми аспектами операции отказоустойчивого кластера и управляет базой данных конфигурации кластера. Если вы видите идентификатор события 1135, рекомендуется установить исправления, упомянутые в следующих статьях, и перезагрузить все узлы кластера, а затем наблюдать, возникает ли проблема повторно.

Проверьте, запущена ли служба кластера на всех узлах

Выполните следующую команду в соответствии с операционной системой Windows, чтобы убедиться, что служба кластера постоянно работает и доступна.

Для кластера Windows Server 2008 R2

В командной строке с повышенными привилегиями выполните команду cluster.exe node /stat.

Для кластера Windows Server 2012 и Windows Server 2012 R2

Выполните следующий командлет PowerShell: Get-ClusterResource

Работает ли служба кластера постоянно и доступна на всех узлах?

Несколько сценариев идентификатора события 1135

Мы хотим, чтобы вы более подробно изучили журналы системных событий на всех узлах кластера. Просмотрите идентификатор события 1135, который вы видите на узлах, и скопируйте все экземпляры этого события. Это сделает его удобным для вас, чтобы посмотреть на них и проверить.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Существует три типичных сценария:

Сценарий A

Вы просматриваете все события и все узлы в кластере, указывающие на то, что NODE A потерял связь.

Схема, показывающая успешное взаимодействие node A, Node B и Node C.

Схема, показывающая, что узел A потерял связь с node B и Node C.

Возможно, что при просмотре системных журналов в NODE A все остальные узлы в кластере имеются события.

Решение

Это довольно предполагает, что во время проблемы либо из-за перегрузки сети, либо в противном случае связь с NODE A была потеряна.

Необходимо проверить и проверить проблемы с конфигурацией сети и связью. Не забудьте искать проблемы, относящиеся к Node A.

Сценарий B

Вы просматриваете события на узлах и позвольте нам сказать, что кластер распределяется по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D и NODE E на сайте 2.

Схема, показывающая, что сайт 1 успешно взаимодействует с сайтом 2 по каналу глобальной сети.

На узлах A, B и C вы увидите, что события, которые регистрируются, предназначены для подключения к Nodes D и E. Аналогичным образом, когда отображаются события на узлах D и E, события предполагают, что мы потеряли связь с A, B и C.

Схема, показывающая, что сайт 1 потерял подключение канала глобальной сети к сайту 2.

Решение

Если вы видите аналогичное действие, это свидетельствует о том, что произошел сбой связи, по ссылке, которая подключает эти сайты. Мы рекомендуем проверить подключение между сайтами, если подключение выполняется через глобальную сеть, мы рекомендуем проверить подключение к интернет-серверу.

Сценарий C

Вы просматриваете события на узлах, и вы видите, что имена узлов не выбирают ни одного конкретного шаблона. Предположим, что кластер распределяется по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D и NODE E на сайте 2.

  • На узле A: отображаются события для узлов B, D, E.
  • На узле B: отображаются события для узлов C, D, E.
  • На узле C: отображаются события для узлов A, B, E.
  • На узле D: отображаются события для узлов A, C, E.
  • На узле E: отображаются события для узлов B, C, D.
  • Или любые другие сочетания.

Схема сценария C, показывающая, что кластер распределяется по двум сайтам.

Решение

Такие события возможны, когда сетевые каналы между узлами блокируются, а сообщения связи кластера не достигаются своевременно, что позволяет кластеру чувствовать, что связь между узлами теряется, что приводит к удалению узлов из членства в кластере.

Проверка сетей кластера

Мы рекомендуем проверить сети кластера, проверив следующие три варианта, чтобы продолжить это руководство по устранению неполадок.

Проверка исключения антивирусной программы

Исключите следующие расположения файловой системы из сканирования вирусов на сервере, на котором выполняются службы кластеров:

  • Путь свидетеля FileShare
  • Папка %Systemroot%\Cluster

Настройте компонент сканирования в режиме реального времени в антивирусном программном обеспечении, чтобы исключить следующие каталоги и файлы:

  • Каталог конфигурации виртуальных машин по умолчанию (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • Пользовательские каталоги конфигурации виртуальных машин

  • Каталог виртуальных жестких дисков по умолчанию (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • Пользовательские каталоги виртуальных жестких дисков

  • Пользовательские каталоги данных репликации, если вы используете реплику Hyper-V

  • Каталоги моментальных снимков

  • mms.exe

    Примечание.

    Этот файл может быть настроен как исключение процесса в антивирусном программном обеспечении.

  • Vmwp.exe

    Примечание.

    Этот файл может быть настроен как исключение процесса в антивирусном программном обеспечении.

Кроме того, при использовании динамической миграции вместе с общими томами кластера исключите путь CSV C:\Clusterstorage и все его подкаталоги. Если вы устраняете проблемы отработки отказа или общие проблемы со службами кластеров и антивирусной программой, временно удалите антивирусное программное обеспечение или обратитесь к производителю программного обеспечения, чтобы определить, работает ли антивирусное программное обеспечение со службами кластеров. Просто отключение антивирусного программного обеспечения недостаточно в большинстве случаев. Даже если вы отключите антивирусное программное обеспечение, драйвер фильтра по-прежнему загружается при перезапуске компьютера.

Проверка конфигурации сетевого порта в брандмауэре

Служба кластеров контролирует операции кластера серверов и управляет базой данных кластера. Кластер представляет собой набор отдельных компьютеров, которые действуют как одна система. Руководителям, программистам и пользователям кластер виден в качестве единой системы. Программное обеспечение распределяет данные между узлами кластера. В случае сбоя одного из таких узлов находящиеся в его ведении службы и данные предоставляются другими узлами. Когда восстанавливается или добавляется новый узел, программное обеспечение кластера перемещает на него часть данных.

Имя системной службы: ClusSvc

Приложение Протокол Порты
Служба кластеров UDP 3343
Служба кластеров TCP 3343 (этот порт не требуется во время операции объединения узлов)
RPC TCP 135
Администратор кластера UDP 137
Kerberos UDP и TCP 464*
SMB TCP 445
Случайный выделен высокий UDP-порт** UDP Случайный номер порта от 1024 до 65535
Случайный номер порта от 49152 до 65535***

Примечание.

Кроме того, для успешной проверки в отказоустойчивых кластерах Windows в Windows Server 2008 и более поздних версий разрешен входящий и исходящий трафик для ICMP4, ICMP6.

Это диапазон в Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 и Windows Vista.

Кроме того, выполните следующую команду, чтобы проверить конфигурацию сетевого порта в брандмауэре. Например: эта команда помогает определить порт 3343 available\open для отказоустойчивого кластера:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

Запуск отчета проверки кластера для любых ошибок или предупреждений

Средство проверки кластера запускает набор тестов, чтобы убедиться, что оборудование и параметры совместимы с отказоустойчивой кластеризации.

Следуйте этим инструкциям:

  1. Запустите отчет проверки кластера для любых ошибок или предупреждений. Дополнительные сведения см. в разделе "Основные сведения о тестах проверки кластера: сеть"

    Снимок экрана: результаты после запуска отчета проверки кластера для любых ошибок или предупреждений.

  2. Проверьте наличие предупреждений и ошибок для сетей. Дополнительные сведения см. в разделе "Основные сведения о тестах проверки кластера: сеть".

    Снимок экрана: Результаты по категориям.

    Снимок экрана: проверка конфигурации брандмауэра Windows в сети.

Проверка порядка сетевой привязки списка

В этом тесте перечислены порядок привязки сетей к адаптерам на каждом узле.

На вкладке "Адаптеры и привязки " перечислены подключения в том порядке, в котором к подключениям обращаются сетевые службы. Порядок этих подключений отражает порядок отправки универсальных вызовов TCP/IP/пакетов в проводную связь.

Выполните следующие действия, чтобы изменить порядок привязки сетевых адаптеров:

  1. Нажмите кнопку "Пуск", выберите "Запустить", введите ncpa.cpl и нажмите кнопку "ОК". Доступные подключения можно просмотреть в разделе локальной сети и Интернет высокой скорости в окне сетевых подключений .
  2. В меню "Дополнительно" выберите "Дополнительные параметры" и перейдите на вкладку "Адаптеры и привязки".
  3. В области "Подключения" выберите соединение, которое нужно переместить выше в списке. Используйте кнопки со стрелками для перемещения соединения. Как правило, карточка, которая взаимодействует с сетью (подключение к домену, маршрутизация в другие сети и т. д.), должна быть первой привязанной (верхней частью списка).

Узлы кластера — это многодомовые системы. Приоритет сети влияет на DNS-клиент для исходящего сетевого подключения. Сетевые адаптеры, используемые для обмена данными клиента, должны находиться в верхней части порядка привязки. Ненаправимые сети могут размещаться в более низком приоритете. В Windows Server 2012 и Windows Server 2012 R2 адаптер сетевого драйвера кластера (NETFT.SYS) автоматически помещается в нижней части списка заказов привязки.

Проверка сетевого взаимодействия

Задержка в сети также может привести к этому. Пакеты могут не быть потеряны между узлами, но они могут не добраться до узлов достаточно быстро до истечения срока ожидания.

Этот тест проверяет, что проверенные серверы могут взаимодействовать с приемлемой задержкой во всех сетях.

Например: в разделе "Проверка сетевого взаимодействия" могут отображаться следующие сообщения для проблем с задержкой сети:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

Для кластера с несколькими сайтами можно увеличить значения времени ожидания. Дополнительные сведения см. в разделе "Настройка параметров пульса и DNS" в отказоустойчивом кластере с несколькими сайтами.

Обратитесь к isP для любых проблем с подключением к глобальной сети.

Проверьте, столкнулись ли какие-либо из следующих проблем.

Сетевые пакеты, потерянные между узлами
  1. Проверка потери пакетов с помощью производительности

    Если пакет теряется в проводе где-то между узлами, пульс завершится ошибкой. Мы можем легко выяснить, является ли это проблемой с помощью Монитор производительности для просмотра счетчика "Сетевой интерфейс\Пакеты, полученные отброшены". После добавления этого счетчика просмотрите средние, минимальные и максимальные числа, а если они имеют значение выше нуля, то буфер получения необходимо настроить для адаптера.

    Снимок экрана: окно

    Если у вас возникает потеря сетевого пакета на платформе виртуализации VMware, см. раздел "Кластер, установленный на платформе виртуализации VMware".

  2. Обновление драйверов сетевого адаптера

    Эта проблема может возникать из-за устаревших драйверов сетевого адаптера\компонентов интеграции (IC)\VmTools или неисправных адаптеров сетевого адаптера. Если между узлами на физических компьютерах потеряны сетевые пакеты, обновите драйвер сетевого адаптера. Старые или устаревшие драйверы сетевых карт и /или встроенное ПО. Иногда простая неправильное настройка сетевой карты или коммутатора также может привести к потере пульса.

Кластер, установленный на платформе виртуализации VMware

Проверьте проблемы с адаптером VMware в случае среды VMware.

Эта проблема может возникнуть, если пакеты удаляются во время всплесков трафика. Убедитесь, что фильтрация трафика отсутствует (например, с фильтром почты). После устранения этой возможности постепенно увеличьте количество буферов в гостевой операционной системе и проверьте.

Чтобы уменьшить падение трафика с всплеском, выполните следующие действия.

  1. Нажмите кнопку "Пуск", выберите "Запустить", введите devmgmt.msc и нажмите клавишу ВВОД.
  2. Разверните сетевые адаптеры, щелкните правой кнопкой мыши vmxnet3 и выберите "Свойства".
  3. Откройте вкладку Дополнительно .
  4. Выберите небольшие буферы Rx и увеличьте значение. Значение по умолчанию равно 512, а максимальное значение — 8192.
  5. Выберите Rx Ring #1 Size и увеличьте значение. Значение по умолчанию — 1024, а максимальное — 4096.

Проверьте следующие статьи, чтобы проверить проблемы с адаптером VMware в случае среды VMware:

Обратите внимание на любые перегрузки сети

Перегрузка сети также может привести к проблемам с сетевым подключением.

Убедитесь, что сеть настроена в соответствии с рекомендациями ms и поставщика, см. статью "Настройка сетей отказоустойчивого кластера Windows".

Проверка конфигурации сети

Если он по-прежнему не работает, убедитесь, что вы видели секционированную сеть в графическом интерфейсе кластера или у вас включена группа сетевых карт в сетевом интерфейсе пульса.

Если вы видите секционированную сеть в графическом интерфейсе кластера, см. раздел "Секционированные" сети кластера, чтобы устранить эту проблему.

Если вы включили объединение сетевых карт в сетевом адаптере пульса, проверьте функциональные возможности программного обеспечения Teaming в зависимости от рекомендаций поставщика командирования.

Обновление драйверов сетевого адаптера

Эта проблема может возникать из-за устаревших драйверов сетевого адаптера или неисправных адаптеров сетевого адаптера.

Если между узлами на физических компьютерах потеряны сетевые пакеты, обновите драйвер сетевого адаптера. Старые или устаревшие драйверы сетевых карт и /или встроенное ПО.

Иногда простая неправильное настройка сетевой карты или коммутатора также может привести к потере пульса.

Проверка конфигурации сети

Если она по-прежнему не работает, убедитесь, что вы видели секционированную сеть в графическом интерфейсе кластера или у вас включена группа сетевых карт в сетевом интерфейсе пульса.