Azure Stack Edge Pro GPU 디바이스의 클러스터 장애 조치(failover) 시나리오
이 문서에서는 일반적인 장애 조치(failover) 시나리오, Azure Stack Edge 디바이스가 응답하는 방식 및 장애 조치(failover)가 발생할 경우 클러스터에 배포된 워크로드에 대한 전반적인 영향을 식별합니다.
장애 조치 정보
Azure Stack Edge는 단일 독립 실행형 디바이스 또는 2노드 클러스터로 설정할 수 있습니다. 2노드 클러스터에서 클러스터된 노드는 클러스터에서 실행되는 애플리케이션 및 서비스에 고가용성을 제공합니다.
클러스터된 노드 중 하나가 실패하면 다른 노드가 서비스를 제공하기 시작합니다. 이 프로세스를 장애 조치(failover)라고 합니다. 디스크 드라이브, PSU(전원 공급 장치) 또는 네트워크와 같은 디바이스의 하나 또는 두 노드와 연결된 하드웨어 구성 요소가 실패하거나 디바이스 노드를 업데이트할 때 장애 조치(failover)가 발생할 수도 있습니다.
장애 조치(failover) 시나리오
장애 조치(failover)는 하드웨어 구성 요소 오류, 노드 오류 또는 Azure Stack Edge 클러스터 업데이트 시 발생할 수 있습니다.
하드웨어 오류
다음 표에는 하나 이상의 디스크 드라이브, 전원 공급 장치 또는 네트워크와 같은 디바이스 클러스터와 연결된 물리적 하드웨어 구성 요소에 대한 오류 시나리오가 요약되어 있습니다.
디스크 드라이브 오류
노드 A | 노드 B | 클러스터가 유지됨 | 장애 조치(Failover) | 세부 정보 |
---|---|---|---|---|
1개 디스크 드라이브 오류 | 오류 없음 | 예 | 아니요 | 디스크가 교체될 때까지 클러스터의 성능이 저하됩니다. |
2개 이상의 디스크 드라이브 오류 | 오류 없음 | 예 | 아니요 | 디스크가 교체될 때까지 클러스터의 성능이 저하됩니다. |
1개 이상의 디스크 드라이브 오류 | 1개 이상의 디스크 드라이브 오류 | 아니요 | 클러스터가 오프라인으로 전환됩니다. |
전원 공급 장치 오류
노드 A | 노드 B | 클러스터가 유지됨 | 장애 조치(Failover) | 세부 정보 |
---|---|---|---|---|
1개 PSU 실패 | 오류 없음 | 예 | 아니요 | 노드 A의 또 다른 전원 공급 장치 오류로 인해 노드 B로 장애 조치(failover)됩니다. |
1개 PSU 실패 | 1개 PSU 실패 | 예 | 아니요 | 두 노드 중 하나에서 또 다른 전원 공급 장치 오류가 발생하면 장애 조치(failover)됩니다. |
2개 PSU 실패 | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover)됩니다. |
2개 PSU 실패(TBC) | 1개 PSU 실패 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover)됩니다. |
2개 PSU 실패 | 2개 PSU 실패 | 아니요 | 클러스터가 오프라인으로 전환됩니다. |
네트워크 오류
노드 A | 노드 B | 클러스터가 유지됨 | 장애 조치(Failover) | 세부 정보 |
---|---|---|---|---|
포트 1, 포트 2, 포트 5 또는 포트 6 실패 | 오류 없음 | 예 | 아니요 | 실패한 포트를 사용할 수 없습니다. 이 포트에서 수신 대기하는 앱이 영향을 받았습니다. |
포트 3 및 포트 4 중 하나 또는 둘 다 실패 | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover) |
노드 오류 및 업데이트
노드 오류
이 표에는 클러스터에서 전체 노드가 실패한 경우의 실패 시나리오가 요약되어 있습니다.
노드 A | 노드 B | 클러스터가 유지됨 | 장애 조치(Failover) | 세부 정보 |
---|---|---|---|---|
전체 노드 실패 | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover) |
전체 노드 실패 | 전체 노드 실패 | 아니요 | - | 클러스터가 오프라인으로 전환 |
Reboot | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover) |
Reboot | Reboot | 아니요 | - | 다시 부팅이 완료될 때까지 클러스터가 오프라인 상태입니다. |
핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover) |
핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. | 핵심 구성 요소가 실패합니다. 예를 들어 마더보드, DIMM 및 OS 디스크가 있습니다. | 아니요 | - | 클러스터가 오프라인으로 전환 |
노드 업데이트
노드 A | 노드 B | 클러스터가 유지됨 | 장애 조치(Failover) | 세부 정보 |
---|---|---|---|---|
노드 업데이트 | 오류 없음 | 예 | 예 | 노드 A의 VM이 노드 B로 장애 조치(failover) |
노드 업데이트 | 2개 PSU 실패 | 아니요 | - | 클러스터가 오프라인으로 전환 |
노드 업데이트 | 전체 노드가 실패하거나 오프라인으로 전환됩니다. | 아니요 | - | 클러스터가 오프라인으로 전환 |
노드 업데이트 | Reboot | 아니요 | - | 클러스터가 오프라인으로 전환 |
노드 업데이트 | 마더보드, DIMM 및 OS 디스크와 같은 핵심 구성 요소가 실패합니다. | 아니요 | - | 클러스터가 오프라인으로 전환 |
다음 단계
- Azure Stack Edge Pro GPU용 VM 크기 및 유형에 대해 알아봅니다.