이벤트 ID 1135의 클러스터 문제 해결
이 문서는 장애 조치 클러스터링 환경에서 클러스터 서비스를 시작하는 동안 기록될 수 있는 이벤트 ID 1135를 진단하고 해결하는 데 도움이 됩니다.
적용 대상: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, 버전 21H2 및 20H2
가상 에이전트 사용해 보기 - 일반적인 Active Directory 복제 문제를 신속하게 식별하고 해결하는 데 도움이 될 수 있습니다.
시작 페이지
이벤트 ID 1135는 활성 장애 조치 클러스터 멤버 자격에서 하나 이상의 클러스터 노드가 제거되었음을 나타냅니다. 다음과 같은 증상이 나타날 수 있습니다.
활성 장애 조치(failover) 클러스터 멤버 자격에서 제거되는 클러스터 장애 조치(failover) \nodes:
이벤트 ID 1069:
쿼럼 손실에 대한 이벤트 ID 1177:
클러스터 서비스에 대한 이벤트 ID 1006이 중지되었습니다.
문제의 원인이 될 수 있는 구성 문제가 없는지 확인하기 위해 초기 문제 해결 단계 중 하나로 유효성 검사 및 네트워크 테스트를 실시하는 것이 좋습니다.
권장하는 핫 픽스가 설치되었는지 확인합니다
클러스터 서비스는 필수 소프트웨어 구성 요소로, 장애 조치 클러스터 작업의 모든 면을 제어하고 클러스터 구성 데이터베이스를 관리합니다. 이벤트 ID 1135가 표시되면 다음 문서에 언급된 수정 사항을 설치하고 클러스터의 모든 노드를 다시 부팅한 다음 문제가 다시 발생하는지 확인하는 것이 좋습니다.
- Windows Server 2012 R2 기반 장애 조치(Failover) 클러스터의 권장 핫픽스 및 업데이트
- Windows Server 2012 기반 장애 조치(failover) 클러스터에 권장되는 핫픽스 및 업데이트
- Windows Server 2008 R2 SP1 장애 조치(failover) 클러스터에 권장되는 핫픽스 및 업데이트
모든 노드에서 실행되는 클러스터 서비스 확인
Windows 운영 시스템에 따라 다음 명령을 수행하고 클러스터 서비스가 지속적으로 실행되고 사용 가능한지 확인합니다.
Windows Server 2008 R2 클러스터의 경우
관리자 권한의 명령 프롬프트에서 cluster.exe node /stat
를 실행합니다.
Windows Server 2012 및 Windows Server 2012 R2 클러스터의 경우
다음 PowerShell cmdlet 을 실행합니다. Get-ClusterResource
클러스터 서비스를 지속적으로 실행하고 모든 노드에서 사용할 수 있나요?
이벤트 ID 1135의 여러 시나리오
클러스터의 모든 노드에서 시스템 이벤트 로그를 자세히 살펴보세요. 노드에 표시되는 이벤트 ID 1135를 검토하고 이 이벤트의 모든 인스턴스를 복사합니다. 이렇게 하면 편리하게 확인 및 검토할 수 있습니다.
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
다음과 같은 세 가지 일반적인 시나리오가 있습니다.
시나리오 A
모든 이벤트를 살펴보고 클러스터의 모든 노드는 NODE A가 통신을 끊었다는 것을 나타냅니다.
NODE A에 시스템 로그가 표시되면 클러스터의 나머지 모든 노드에 대한 이벤트가 있을 수 있습니다.
솔루션
이는 문제 발생 시 네트워크 정체 또는 다른 이유로 노드 A에 대한 통신이 끊어졌음을 시사합니다.
네트워크 구성 및 통신 문제를 검토하고 검사해야 합니다. 노드 A와 관련된 문제를 찾아야 합니다.
시나리오 B
노드의 이벤트를 살펴보고 클러스터가 두 사이트에 분산되어 있다고 가정해 보겠습니다. 사이트 1의 NODE A, NODE B 및 NODE C, 사이트 2의 NODE D 및 NODE E.
노드 A, B 및 C에서 기록된 이벤트는 Nodes D 및 E에 대한 연결에 대한 것임을 알 수 있습니다. 마찬가지로 Nodes D & E에서 이벤트가 표시되면 이벤트는 A, B 및 C와의 통신이 끊어진 것을 제안합니다.
솔루션
유사한 활동이 표시되면 이러한 사이트를 연결하는 링크를 통해 통신 오류가 발생했음을 나타냅니다. 사이트 간 연결을 검토하는 것이 좋으며, 이것이 WAN 연결을 통하는 경우에는 ISP에서 연결에 대해 확인하는 것이 좋습니다.
시나리오 C
노드의 이벤트를 살펴보면 노드 이름이 특정 패턴으로 집계되지 않는 것을 볼 수 있습니다. 클러스터가 두 사이트에 분산되어 있다고 가정해 보겠습니다. 사이트 1의 NODE A, NODE B 및 NODE C, 사이트 2의 NODE D 및 NODE E.
- 노드 A: 노드 B, D, E에 대한 이벤트가 표시됩니다.
- 노드 B: 노드 C, D, E에 대한 이벤트가 표시됩니다.
- 노드 C: 노드 A, B, E에 대한 이벤트가 표시됩니다.
- 노드 D: 노드 A, C, E에 대한 이벤트가 표시됩니다.
- 노드 E: 노드 B, C, D에 대한 이벤트가 표시됩니다.
- 또는 다른 조합이 있습니다.
솔루션
이러한 이벤트는 노드 간의 네트워크 채널이 막히고 클러스터 통신 메시지가 적시에 도달하지 않아 클러스터에서 노드 간 통신이 끊어졌다고 인식하게 되어 클러스터 멤버십에서 노드가 제거됩니다.
클러스터 네트워크 검토
이 문제 해결 가이드를 계속 진행하려면 다음 세 가지 옵션을 하나씩 확인하여 클러스터 네트워크를 검토하는 것이 좋습니다.
바이러스 백신 제외를 확인합니다
Cluster Services를 실행하는 서버의 바이러스 검사에서 다음 파일 시스템 위치를 제외합니다.
- FileShare 감시의 경로
- %Systemroot%\Cluster 폴더
백신 소프트웨어 내에서 실시간 검사 구성 요소를 구성하여 다음 디렉터리 및 파일을 제외하도록 합니다.
기본 가상 머신 구성 디렉터리(C:\ProgramData\Microsoft\Windows\Hyper-V)
사용자 지정 가상 머신 구성 디렉터리
기본 가상 하드 디스크 드라이브 디렉터리(C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
사용자 지정 가상 하드 디스크 드라이브 디렉터리
Hyper-V 복제본을 사용하는 경우 사용자 지정 복제 데이터 디렉터리
스냅샷 디렉터리
mms.exe
참고 항목
이 파일은 바이러스 백신 소프트웨어에서 프로세스 제외로 구성해야 할 수 있습니다.
Vmwp.exe
참고 항목
이 파일은 바이러스 백신 소프트웨어에서 프로세스 제외로 구성해야 할 수 있습니다.
또한 클러스터 공유 볼륨과 함께 실시간 마이그레이션을 사용하는 경우 CSV 경로 C:\Clusterstorage 및 모든 하위 디렉터리를 제외합니다. 장애 조치(failover) 문제 또는 클러스터 서비스 및 바이러스 백신 소프트웨어가 설치된 일반적인 문제를 해결하는 경우 바이러스 백신 소프트웨어를 일시적으로 제거하거나 소프트웨어 제조업체에 문의하여 바이러스 백신 소프트웨어가 클러스터 서비스에서 작동하는지 확인합니다. 대부분의 경우 바이러스 백신 소프트웨어를 비활성화하는 것만으로는 충분하지 않습니다. 바이러스 백신 소프트웨어를 비활성화하더라도 컴퓨터를 다시 시작하면 필터 드라이버가 로드됩니다.
방화벽에서 네트워크 포트 구성 확인
클러스터 서비스는 서버 클러스터 작동을 제어하고 클러스터 데이터베이스를 관리합니다. 클러스터는 단일 컴퓨터의 역할을 하는 독립적인 컴퓨터의 집합입니다. 관리자, 프로그래머 및 사용자는 클러스터를 단일 시스템으로 인식합니다. 소프트웨어는 클러스터의 노드로 데이터를 배포합니다. 한 노드에 오류가 발생하면 다른 노드에서 오류가 발생한 노드가 제공하던 서비스와 데이터를 제공합니다. 노드가 추가되거나 복구되면 클러스터 소프트웨어가 일부 데이터를 이 노드로 마이그레이션합니다.
시스템 서비스 이름: ClusSvc
애플리케이션 | 프로토콜 | Ports |
---|---|---|
클러스터 서비스 | UDP | 3343 |
클러스터 서비스 | TCP | 3343(이 포트는 노드 조인 작업 도중 필요함) |
RPC | TCP | 135 |
클러스터 관리자 | UDP | 137 |
Kerberos | UDP/TCP | 464* |
SMB | TCP | 445 |
무작위로 할당된 높은 UDP 포트** | UDP | 1024에서 65535 사이의 임의 포트 번호 49152에서 65535*** 사이의 임의 포트 번호 |
참고 항목
또한 Windows Server 2008 이상의 Windows 장애 조치 클러스터에 대한 성공적인 유효성 검사를 위해 ICMP4, ICMP6에 대한 인바운드 및 아웃바운드 트래픽을 허용합니다.
- 자세한 내용은 오류 0xc000005e로 Windows Server 2012 장애 조치 클러스터 생성 실패를 참조하세요.
- 이러한 포트를 사용자 지정하는 방법에 대한 자세한 내용은 Windows에 대한 서비스 개요 및 네트워크 포트 요구 사항의 "참조" 섹션을 참조하세요.
범위는 Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 및 Windows Vista입니다.
또한 다음 명령을 실행하여 방화벽에서 네트워크 포트 구성을 확인합니다. 예를 들어, 이 명령을 사용하면 장애 조치 클러스터에 사용 가능한 포트 3343 available\open을 확인할 수 있습니다.
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
오류 또는 경고가 있는 경우 클러스터 유효성 검사 보고서를 실행합니다
클러스터 유효성 검사 도구는 테스트 제품군을 실행하여 하드웨어 및 설정이 장애 조치 클러스터링과 호환되는지 확인합니다.
이 지침을 따릅니다.
오류 또는 경고가 있는 경우 클러스터 유효성 검사 보고서를 실행합니다. 자세한 내용은 유효성 검사 테스트 이해: 네트워크를 참조하세요
네트워크에 대한 경고 및 오류를 확인합니다. 자세한 내용은 유효성 검사 테스트 이해: 네트워크를 참조하세요.
네트워크 바인딩 순서 나열 확인
이 테스트는 네트워크가 각 노드의 어댑터에 바인딩되는 순서를 나열합니다.
어댑터 및 바인딩 탭에는 네트워크 서비스에서 연결에 액세스하는 순서대로 연결이 나열됩니다. 이러한 연결의 순서는 일반 TCP/IP 호출/패킷이 유선으로 전송되는 순서를 반영합니다.
네트워크 어댑터의 바인딩 순서를 변경하려면 다음 단계를 따르세요.
- 시작을 선택하고 실행을 선택하고 ncpa.cpl 입력한 다음 확인을 선택합니다. 네트워크 연결 창의 LAN 및 고속 인터넷 섹션에서 사용할 수 있는 연결을 확인할 수 있습니다.
- 고급 메뉴에서 고급 설정을 선택한 다음 어댑터 및 바인딩 탭을 선택합니다.
- 연결 영역에서 목록에서 더 높이 이동할 연결을 선택합니다. 화살표 단추를 사용해 연결을 이동합니다. 일반적으로 네트워크와 대화하는 카드(도메인 연결, 다른 네트워크로 라우팅 등)는 첫 번째 바인딩(목록의 맨 위) 카드여야 합니다.
클러스터 노드는 다중 홈 시스템입니다. 네트워크 우선 순위는 아웃바운드 네트워크 연결에 대한 DNS 클라이언트에 영향을 줍니다. 클라이언트 통신에 사용되는 네트워크 어댑터는 바인딩 순서의 맨 위에 있어야 합니다. 라우팅되지 않은 네트워크는 우선 순위가 낮은 위치에 배치될 수 있습니다. Windows Server 2012 및 Windows Server 2012 R2에서는 클러스터 네트워크 드라이버(NETFT.SYS) 어댑터가 바인딩 순서 목록의 맨 아래에 자동으로 배치됩니다.
네트워크 통신 검증 확인
네트워크의 대기 시간으로 인해 이러한 문제가 발생할 수도 있습니다. 패킷은 노드 사이에서 손실되지 않을 수 있지만, 시간 제한 기간이 만료되기 전에는 노드에 충분히 빨리 도착하지 못할 수도 있습니다.
이 테스트는 테스트 대상 서버가 모든 네트워크에서 허용 가능한 대기 시간과 통신할 수 있음을 확인합니다.
예를 들어, 네트워크 통신 유효성 검사에서 네트워크 대기 시간 문제에 대해 다음 메시지를 표시할 수 있습니다.
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
다중 사이트 클러스터의 경우 제한 시간 값을 늘릴 수 있습니다. 자세한 내용은 다중 사이트 장애 조치 클러스터에서 하트비트 및 DNS 설정 구성을 참조하세요.
WAN 연결 문제가 있는지 ISP에 확인합니다.
다음 문제가 발생했는지 확인합니다.
노드 간 네트워크 패킷 손실
성능을 사용한 패킷 손실 확인
노드 간 어딘가에 존재하는 와이어에서 패킷이 손실되면 하트비트가 실패합니다. 성능 모니터를 사용하여 '네트워크 인터페이스\삭제된 패킷 수신됨' 카운터를 확인해 문제 여부를 쉽게 확인할 수 있습니다. 이 카운터를 추가한 다음에는 평균, 최소 및 최대 숫자를 확인하고 값이 0보다 높다면 어댑터에 맞게 수신 버퍼를 조정해야 합니다.
VMware 가상화 플랫폼에서 네트워크 패킷이 손실된 경우 "VMware 가상화 플랫폼에 설치된 클러스터" 섹션을 참조하세요.
NIC 드라이버 업그레이드
이 문제는 오래된 NIC 드라이버\IC(통합 구성 요소)\VmTools 또는 결함이 있는 NIC 어댑터 때문에 발생할 수 있습니다. 물리적 머신의 노드 간에 네트워크 패킷이 손실된 경우 네트워크 어댑터 드라이버를 업데이트하세요. 이전 또는 오래된 네트워크 카드 드라이버 및/또는 펌웨어. 때로는 네트워크 카드 또는 스위치를 잘못 구성할 경우 하트비트가 손실될 수도 있습니다.
VMware 가상화 플랫폼에 설치된 클러스터
VMware 환경의 경우 VMware 어댑터 문제를 확인합니다.
이 문제는 트래픽이 높은 버스트 과정에서 패킷이 삭제되는 경우 발생할 수 있습니다. 트래픽 필터링이 발생하지 않는지 확인합니다(예: 메일 필터 사용). 이러한 가능성을 제거한 다음 게스트 운영 체제의 버퍼 수를 점진적으로 늘리고 확인합니다.
버스트 트래픽 감소량을 줄이려면 다음 단계를 따르세요.
- 시작을 선택하고 실행을 선택하고 Enter 키를
devmgmt.msc
누릅니다. - 네트워크 어댑터를 확장하고 vmxnet3을 마우스 오른쪽 단추로 클릭하고 속성을 선택합니다.
- 고급 탭을 선택합니다.
- 작은 Rx 버퍼를 선택하고 값을 늘입니다. 기본값은 512이고 최대값은 8192입니다.
- Rx 링 #1 크기를 선택하고 값을 늘입니다. 기본값은 1024이고 최대값은 4096입니다.
VMware 환경의 경우 VMware 어댑터 문제를 확인하려면 다음 문서를 확인합니다.
네트워크 정체 확인
네트워크 정체로 인해 네트워크 연결 문제가 발생할 수도 있습니다.
네트워크가 MS 및 공급업체 권장 사항에 따라 구성되었는지 확인하려면 Windows 장애 조치 클러스터 네트워크 구성을 참조하세요.
네트워크 구성을 확인합니다.
그래도 작동하지 않는 경우 클러스터 GUI에서 분할된 네트워크를 보았거나 하트비트 NIC에서 NIC 팀을 사용하도록 설정했는지 확인하세요.
클러스터 GUI에 분할된 네트워크가 표시되는 경우, '분할된' 클러스트 네트워크를 참조해 문제를 해결하세요.
하트비트 NIC에서 NIC 팀을 활성화한 경우 팀 공급업체의 권장 사항에 따라 팀 소프트웨어 기능을 확인하세요.
NIC 드라이버 업그레이드
이 문제는 오래된 NIC 드라이버 또는 결함이 있는 NIC 어댑터로 인해 발생할 수 있습니다.
물리적 머신의 노드 간에 네트워크 패킷이 손실된 경우 네트워크 어댑터 드라이버를 업데이트하세요. 이전 또는 오래된 네트워크 카드 드라이버 및/또는 펌웨어.
때로는 네트워크 카드 또는 스위치를 잘못 구성할 경우 하트비트가 손실될 수도 있습니다.
네트워크 구성을 확인합니다.
그래도 작동하지 않는 경우 클러스터 GUI에서 분할된 네트워크를 보았는지 또는 하트비트 NIC에서 NIC 팀을 사용하도록 설정했는지 확인합니다.