Устранение неполадок с кластером с идентификатором события 1135
Эта статья поможет вам диагностировать и устранить идентификатор события 1135, который может быть зарегистрирован во время запуска службы кластера в среде отказоустойчивой кластеризации.
Область применения: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, версии 21H2 и 20H2
Попробуйте наш виртуальный агент . Это поможет быстро определить и устранить распространенные проблемы репликации Active Directory.
Начальная страница
Идентификатор события 1135 указывает, что один или несколько узлов кластера были удалены из активного членства в отказоустойчивом кластере. Это может сопровождаться следующими симптомами:
Отработка отказа кластера\узлы удаляются из активного членства в отказоустойчивом кластере:
Наличие проблемы с удаленными узлами из активного членства в отказоустойчивом кластере
Идентификатор события 1069:
Идентификатор события 1069 — кластеризованная служба или доступность приложений
Идентификатор события 1177 для потери кворума:
Идентификатор события 1177 — кворум и подключение, необходимые для кворума
Идентификатор события 1006 для службы кластера остановлен:
Проверка и сетевые тесты будут рекомендуемы в качестве одного из начальных шагов по устранению неполадок, чтобы гарантировать отсутствие проблем конфигурации, которые могут быть причиной проблем.
Проверьте, установлены ли рекомендуемые горячие исправления
Служба кластера — это основной программный компонент, который управляет всеми аспектами операции отказоустойчивого кластера и управляет базой данных конфигурации кластера. Если вы видите идентификатор события 1135, рекомендуется установить исправления, упомянутые в следующих статьях, и перезагрузить все узлы кластера, а затем наблюдать, возникает ли проблема повторно.
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров Windows Server 2012 R2.
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров Windows Server 2012.
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров Windows Server 2008 R2 с пакетом обновления 1 (SP1)
Проверьте, запущена ли служба кластера на всех узлах
Выполните следующую команду в соответствии с операционной системой Windows, чтобы убедиться, что служба кластера постоянно работает и доступна.
Для кластера Windows Server 2008 R2
В командной строке с повышенными привилегиями выполните команду cluster.exe node /stat
.
Для кластера Windows Server 2012 и Windows Server 2012 R2
Выполните следующий командлет PowerShell: Get-ClusterResource
Работает ли служба кластера постоянно и доступна на всех узлах?
Несколько сценариев идентификатора события 1135
Мы хотим, чтобы вы более подробно изучили журналы системных событий на всех узлах кластера. Просмотрите идентификатор события 1135, который вы видите на узлах, и скопируйте все экземпляры этого события. Это сделает его удобным для вас, чтобы посмотреть на них и проверить.
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Существует три типичных сценария:
Сценарий A
Вы просматриваете все события и все узлы в кластере, указывающие на то, что NODE A потерял связь.
Возможно, что при просмотре системных журналов в NODE A все остальные узлы в кластере имеются события.
Решение
Это довольно предполагает, что во время проблемы либо из-за перегрузки сети, либо в противном случае связь с NODE A была потеряна.
Необходимо проверить и проверить проблемы с конфигурацией сети и связью. Не забудьте искать проблемы, относящиеся к Node A.
Сценарий B
Вы просматриваете события на узлах и позвольте нам сказать, что кластер распределяется по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D и NODE E на сайте 2.
На узлах A, B и C вы увидите, что события, которые регистрируются, предназначены для подключения к Nodes D и E. Аналогичным образом, когда отображаются события на узлах D и E, события предполагают, что мы потеряли связь с A, B и C.
Решение
Если вы видите аналогичное действие, это свидетельствует о том, что произошел сбой связи, по ссылке, которая подключает эти сайты. Мы рекомендуем проверить подключение между сайтами, если подключение выполняется через глобальную сеть, мы рекомендуем проверить подключение к интернет-серверу.
Сценарий C
Вы просматриваете события на узлах, и вы видите, что имена узлов не выбирают ни одного конкретного шаблона. Предположим, что кластер распределяется по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D и NODE E на сайте 2.
- На узле A: отображаются события для узлов B, D, E.
- На узле B: отображаются события для узлов C, D, E.
- На узле C: отображаются события для узлов A, B, E.
- На узле D: отображаются события для узлов A, C, E.
- На узле E: отображаются события для узлов B, C, D.
- Или любые другие сочетания.
Решение
Такие события возможны, когда сетевые каналы между узлами блокируются, а сообщения связи кластера не достигаются своевременно, что позволяет кластеру чувствовать, что связь между узлами теряется, что приводит к удалению узлов из членства в кластере.
Проверка сетей кластера
Мы рекомендуем проверить сети кластера, проверив следующие три варианта, чтобы продолжить это руководство по устранению неполадок.
Проверка исключения антивирусной программы
Исключите следующие расположения файловой системы из сканирования вирусов на сервере, на котором выполняются службы кластеров:
- Путь свидетеля FileShare
- Папка %Systemroot%\Cluster
Настройте компонент сканирования в режиме реального времени в антивирусном программном обеспечении, чтобы исключить следующие каталоги и файлы:
Каталог конфигурации виртуальных машин по умолчанию (C:\ProgramData\Microsoft\Windows\Hyper-V)
Пользовательские каталоги конфигурации виртуальных машин
Каталог виртуальных жестких дисков по умолчанию (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
Пользовательские каталоги виртуальных жестких дисков
Пользовательские каталоги данных репликации, если вы используете реплику Hyper-V
Каталоги моментальных снимков
mms.exe
Примечание.
Этот файл может быть настроен как исключение процесса в антивирусном программном обеспечении.
Vmwp.exe
Примечание.
Этот файл может быть настроен как исключение процесса в антивирусном программном обеспечении.
Кроме того, при использовании динамической миграции вместе с общими томами кластера исключите путь CSV C:\Clusterstorage и все его подкаталоги. Если вы устраняете проблемы отработки отказа или общие проблемы со службами кластеров и антивирусной программой, временно удалите антивирусное программное обеспечение или обратитесь к производителю программного обеспечения, чтобы определить, работает ли антивирусное программное обеспечение со службами кластеров. Просто отключение антивирусного программного обеспечения недостаточно в большинстве случаев. Даже если вы отключите антивирусное программное обеспечение, драйвер фильтра по-прежнему загружается при перезапуске компьютера.
Проверка конфигурации сетевого порта в брандмауэре
Служба кластеров контролирует операции кластера серверов и управляет базой данных кластера. Кластер представляет собой набор отдельных компьютеров, которые действуют как одна система. Руководителям, программистам и пользователям кластер виден в качестве единой системы. Программное обеспечение распределяет данные между узлами кластера. В случае сбоя одного из таких узлов находящиеся в его ведении службы и данные предоставляются другими узлами. Когда восстанавливается или добавляется новый узел, программное обеспечение кластера перемещает на него часть данных.
Имя системной службы: ClusSvc
Приложение | Протокол | Порты |
---|---|---|
Служба кластеров | UDP | 3343 |
Служба кластеров | TCP | 3343 (этот порт не требуется во время операции объединения узлов) |
RPC | TCP | 135 |
Администратор кластера | UDP | 137 |
Kerberos | UDP и TCP | 464* |
SMB | TCP | 445 |
Случайный выделен высокий UDP-порт** | UDP | Случайный номер порта от 1024 до 65535 Случайный номер порта от 49152 до 65535*** |
Примечание.
Кроме того, для успешной проверки в отказоустойчивых кластерах Windows в Windows Server 2008 и более поздних версий разрешен входящий и исходящий трафик для ICMP4, ICMP6.
- Дополнительные сведения см. в статье "Создание отказоустойчивого кластера Windows Server 2012 сбоем с 0xc000005e ошибки".
- Дополнительные сведения о настройке этих портов см. в разделе "Ссылки" в обзоре службы и требованиях к сетевому порту для Windows.
Это диапазон в Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 и Windows Vista.
Кроме того, выполните следующую команду, чтобы проверить конфигурацию сетевого порта в брандмауэре. Например: эта команда помогает определить порт 3343 available\open для отказоустойчивого кластера:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
Запуск отчета проверки кластера для любых ошибок или предупреждений
Средство проверки кластера запускает набор тестов, чтобы убедиться, что оборудование и параметры совместимы с отказоустойчивой кластеризации.
Следуйте этим инструкциям:
Запустите отчет проверки кластера для любых ошибок или предупреждений. Дополнительные сведения см. в разделе "Основные сведения о тестах проверки кластера: сеть"
Проверьте наличие предупреждений и ошибок для сетей. Дополнительные сведения см. в разделе "Основные сведения о тестах проверки кластера: сеть".
Проверка порядка сетевой привязки списка
В этом тесте перечислены порядок привязки сетей к адаптерам на каждом узле.
На вкладке "Адаптеры и привязки " перечислены подключения в том порядке, в котором к подключениям обращаются сетевые службы. Порядок этих подключений отражает порядок отправки универсальных вызовов TCP/IP/пакетов в проводную связь.
Выполните следующие действия, чтобы изменить порядок привязки сетевых адаптеров:
- Нажмите кнопку "Пуск", выберите "Запустить", введите ncpa.cpl и нажмите кнопку "ОК". Доступные подключения можно просмотреть в разделе локальной сети и Интернет высокой скорости в окне сетевых подключений .
- В меню "Дополнительно" выберите "Дополнительные параметры" и перейдите на вкладку "Адаптеры и привязки".
- В области "Подключения" выберите соединение, которое нужно переместить выше в списке. Используйте кнопки со стрелками для перемещения соединения. Как правило, карточка, которая взаимодействует с сетью (подключение к домену, маршрутизация в другие сети и т. д.), должна быть первой привязанной (верхней частью списка).
Узлы кластера — это многодомовые системы. Приоритет сети влияет на DNS-клиент для исходящего сетевого подключения. Сетевые адаптеры, используемые для обмена данными клиента, должны находиться в верхней части порядка привязки. Ненаправимые сети могут размещаться в более низком приоритете. В Windows Server 2012 и Windows Server 2012 R2 адаптер сетевого драйвера кластера (NETFT.SYS) автоматически помещается в нижней части списка заказов привязки.
Проверка сетевого взаимодействия
Задержка в сети также может привести к этому. Пакеты могут не быть потеряны между узлами, но они могут не добраться до узлов достаточно быстро до истечения срока ожидания.
Этот тест проверяет, что проверенные серверы могут взаимодействовать с приемлемой задержкой во всех сетях.
Например: в разделе "Проверка сетевого взаимодействия" могут отображаться следующие сообщения для проблем с задержкой сети:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
Для кластера с несколькими сайтами можно увеличить значения времени ожидания. Дополнительные сведения см. в разделе "Настройка параметров пульса и DNS" в отказоустойчивом кластере с несколькими сайтами.
Обратитесь к isP для любых проблем с подключением к глобальной сети.
Проверьте, столкнулись ли какие-либо из следующих проблем.
Сетевые пакеты, потерянные между узлами
Проверка потери пакетов с помощью производительности
Если пакет теряется в проводе где-то между узлами, пульс завершится ошибкой. Мы можем легко выяснить, является ли это проблемой с помощью Монитор производительности для просмотра счетчика "Сетевой интерфейс\Пакеты, полученные отброшены". После добавления этого счетчика просмотрите средние, минимальные и максимальные числа, а если они имеют значение выше нуля, то буфер получения необходимо настроить для адаптера.
Если у вас возникает потеря сетевого пакета на платформе виртуализации VMware, см. раздел "Кластер, установленный на платформе виртуализации VMware".
Обновление драйверов сетевого адаптера
Эта проблема может возникать из-за устаревших драйверов сетевого адаптера\компонентов интеграции (IC)\VmTools или неисправных адаптеров сетевого адаптера. Если между узлами на физических компьютерах потеряны сетевые пакеты, обновите драйвер сетевого адаптера. Старые или устаревшие драйверы сетевых карт и /или встроенное ПО. Иногда простая неправильное настройка сетевой карты или коммутатора также может привести к потере пульса.
Кластер, установленный на платформе виртуализации VMware
Проверьте проблемы с адаптером VMware в случае среды VMware.
Эта проблема может возникнуть, если пакеты удаляются во время всплесков трафика. Убедитесь, что фильтрация трафика отсутствует (например, с фильтром почты). После устранения этой возможности постепенно увеличьте количество буферов в гостевой операционной системе и проверьте.
Чтобы уменьшить падение трафика с всплеском, выполните следующие действия.
- Нажмите кнопку "Пуск", выберите "Запустить", введите
devmgmt.msc
и нажмите клавишу ВВОД. - Разверните сетевые адаптеры, щелкните правой кнопкой мыши vmxnet3 и выберите "Свойства".
- Откройте вкладку Дополнительно .
- Выберите небольшие буферы Rx и увеличьте значение. Значение по умолчанию равно 512, а максимальное значение — 8192.
- Выберите Rx Ring #1 Size и увеличьте значение. Значение по умолчанию — 1024, а максимальное — 4096.
Проверьте следующие статьи, чтобы проверить проблемы с адаптером VMware в случае среды VMware:
- Узлы, удаленные из членства в отказоустойчивом кластере в VMware ESX?.
- Большая потеря пакетов на уровне гостевой операционной системы на виртуальной сетевой адаптере VMXNET3 в ESXi
Обратите внимание на любые перегрузки сети
Перегрузка сети также может привести к проблемам с сетевым подключением.
Убедитесь, что сеть настроена в соответствии с рекомендациями ms и поставщика, см. статью "Настройка сетей отказоустойчивого кластера Windows".
Проверка конфигурации сети
Если он по-прежнему не работает, убедитесь, что вы видели секционированную сеть в графическом интерфейсе кластера или у вас включена группа сетевых карт в сетевом интерфейсе пульса.
Если вы видите секционированную сеть в графическом интерфейсе кластера, см. раздел "Секционированные" сети кластера, чтобы устранить эту проблему.
Если вы включили объединение сетевых карт в сетевом адаптере пульса, проверьте функциональные возможности программного обеспечения Teaming в зависимости от рекомендаций поставщика командирования.
Обновление драйверов сетевого адаптера
Эта проблема может возникать из-за устаревших драйверов сетевого адаптера или неисправных адаптеров сетевого адаптера.
Если между узлами на физических компьютерах потеряны сетевые пакеты, обновите драйвер сетевого адаптера. Старые или устаревшие драйверы сетевых карт и /или встроенное ПО.
Иногда простая неправильное настройка сетевой карты или коммутатора также может привести к потере пульса.
Проверка конфигурации сети
Если она по-прежнему не работает, убедитесь, что вы видели секционированную сеть в графическом интерфейсе кластера или у вас включена группа сетевых карт в сетевом интерфейсе пульса.