다음을 통해 공유


Azure Stack Edge Pro GPU 디바이스의 클러스터 장애 조치(failover) 시나리오

이 문서에서는 일반적인 장애 조치(failover) 시나리오, Azure Stack Edge 디바이스가 응답하는 방식 및 장애 조치(failover)가 발생할 경우 클러스터에 배포된 워크로드에 대한 전반적인 영향을 식별합니다.

장애 조치 정보

Azure Stack Edge는 단일 독립 실행형 디바이스 또는 2노드 클러스터로 설정할 수 있습니다. 2노드 클러스터에서 클러스터된 노드는 클러스터에서 실행되는 애플리케이션 및 서비스에 고가용성을 제공합니다.

클러스터된 노드 중 하나가 실패하면 다른 노드가 서비스를 제공하기 시작합니다. 이 프로세스를 장애 조치(failover)라고 합니다. 디스크 드라이브, PSU(전원 공급 장치) 또는 네트워크와 같은 디바이스의 하나 또는 두 노드와 연결된 하드웨어 구성 요소가 실패하거나 디바이스 노드를 업데이트할 때 장애 조치(failover)가 발생할 수도 있습니다.

장애 조치(failover) 시나리오

장애 조치(failover)는 하드웨어 구성 요소 오류, 노드 오류 또는 Azure Stack Edge 클러스터 업데이트 시 발생할 수 있습니다.

하드웨어 오류

다음 표에는 하나 이상의 디스크 드라이브, 전원 공급 장치 또는 네트워크와 같은 디바이스 클러스터와 연결된 물리적 하드웨어 구성 요소에 대한 오류 시나리오가 요약되어 있습니다.

디스크 드라이브 오류

노드 A 노드 B 클러스터가 유지됨 장애 조치(Failover) 세부 정보
1개 디스크 드라이브 오류 오류 없음 아니요 디스크가 교체될 때까지 클러스터의 성능이 저하됩니다.
2개 이상의 디스크 드라이브 오류 오류 없음 아니요 디스크가 교체될 때까지 클러스터의 성능이 저하됩니다.
1개 이상의 디스크 드라이브 오류 1개 이상의 디스크 드라이브 오류 아니요 클러스터가 오프라인으로 전환됩니다.

전원 공급 장치 오류

노드 A 노드 B 클러스터가 유지됨 장애 조치(Failover) 세부 정보
1개 PSU 실패 오류 없음 아니요 노드 A의 또 다른 전원 공급 장치 오류로 인해 노드 B로 장애 조치(failover)됩니다.
1개 PSU 실패 1개 PSU 실패 아니요 두 노드 중 하나에서 또 다른 전원 공급 장치 오류가 발생하면 장애 조치(failover)됩니다.
2개 PSU 실패 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)됩니다.
2개 PSU 실패(TBC) 1개 PSU 실패 노드 A의 VM이 노드 B로 장애 조치(failover)됩니다.
2개 PSU 실패 2개 PSU 실패 아니요 클러스터가 오프라인으로 전환됩니다.

네트워크 오류

노드 A 노드 B 클러스터가 유지됨 장애 조치(Failover) 세부 정보
포트 1, 포트 2, 포트 5 또는 포트 6 실패 오류 없음 아니요 실패한 포트를 사용할 수 없습니다. 이 포트에서 수신 대기하는 앱이 영향을 받았습니다.
포트 3 및 포트 4 중 하나 또는 둘 다 실패 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)

노드 오류 및 업데이트

노드 오류

이 표에는 클러스터에서 전체 노드가 실패한 경우의 실패 시나리오가 요약되어 있습니다.

노드 A 노드 B 클러스터가 유지됨 장애 조치(Failover) 세부 정보
전체 노드 실패 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)
전체 노드 실패 전체 노드 실패 아니요 - 클러스터가 오프라인으로 전환
Reboot 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)
Reboot Reboot 아니요 - 다시 부팅이 완료될 때까지 클러스터가 오프라인 상태입니다.
핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)
핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. 핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. 아니요 - 클러스터가 오프라인으로 전환

노드 업데이트

노드 A 노드 B 클러스터가 유지됨 장애 조치(Failover) 세부 정보
노드 업데이트 오류 없음 노드 A의 VM이 노드 B로 장애 조치(failover)
노드 업데이트 2개 PSU 실패 아니요 - 클러스터가 오프라인으로 전환
노드 업데이트 전체 노드가 실패하거나 오프라인으로 전환됩니다. 아니요 - 클러스터가 오프라인으로 전환
노드 업데이트 Reboot 아니요 - 클러스터가 오프라인으로 전환
노드 업데이트 마더보드, DIMM 및 OS 디스크와 같은 핵심 구성 요소가 실패합니다. 아니요 - 클러스터가 오프라인으로 전환

다음 단계