你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Stack Edge Pro GPU 设备上的群集故障转移方案
本文介绍常见的故障转移方案、Azure Stack Edge 设备的响应方式,以及发生故障转移时对部署在群集上的工作负荷的整体影响。
关于故障转移
Azure Stack Edge 可以设置为单个独立设备或双节点群集。 在双节点群集中,群集节点为群集上运行的应用程序和服务提供高可用性。
如果群集节点之一发生故障,另一个节点会开始提供服务 - 此过程称为故障转移。 如果与设备的一个或两个节点关联的硬件组件(例如磁盘驱动器、电源设备 (PSU) 或网络)出现故障,或者你在更新设备节点,则也可能会发生故障转移。
故障转移方案
故障转移可能是由硬件组件故障、节点故障或更新 Azure Stack Edge 群集引发的。
硬件失败
下面这些表汇总了与设备群集关联的物理硬件组件(例如,一个或多个磁盘驱动器、电源或网络)的故障情况。
磁盘驱动器故障
节点 A | 节点 B | 群集幸存 | 故障转移 | 详细信息 |
---|---|---|---|---|
1 个磁盘驱动器故障 | 无故障 | 是 | 否 | 在更换磁盘之前,群集会降级。 |
2 个或更多个磁盘驱动器出现故障 | 无故障 | 是 | 否 | 在更换磁盘之前,群集会降级。 |
1 个或更多个磁盘驱动器出现故障 | 1 个或更多个磁盘驱动器出现故障 | 否 | 群集脱机。 |
电源设备故障
节点 A | 节点 B | 群集幸存 | 故障转移 | 详细信息 |
---|---|---|---|---|
1 个 PSU 故障 | 无故障 | 是 | 否 | 节点 A 上的另一个电源故障会导致故障转移到节点 B。 |
1 个 PSU 故障 | 1 个 PSU 故障 | 是 | 否 | 不管什么节点上,另一个电源故障都会导致故障转移。 |
2 个 PSU 故障 | 无故障 | 是 | 是 | 节点 A 上的 VM 故障转移到节点 B。 |
2 个 PSU 故障 (TBC) | 1 个 PSU 故障 | 是 | 是 | 节点 A 上的 VM 故障转移到节点 B。 |
2 个 PSU 故障 | 2 个 PSU 故障 | 否 | 群集脱机。 |
网络故障
节点 A | 节点 B | 群集幸存 | 故障转移 | 详细信息 |
---|---|---|---|---|
端口 1、端口 2、端口 5 或端口 6 故障 | 无故障 | 是 | 否 | 故障端口不可用。 在此端口上进行侦听的应用受影响 |
端口 3 和/或端口 4 故障 | 无故障 | 是 | 是 | 节点 A 上的 VM 故障转移到节点 B |
节点故障和更新
节点故障
此表汇总了群集上的一整个节点出现故障时的故障情况。
节点 A | 节点 B | 群集幸存 | 故障转移 | 详细信息 |
---|---|---|---|---|
整个节点故障 | 无故障 | 是 | 是 | 节点 A 中的 VM 故障转移到节点 B |
整个节点故障 | 整个节点故障 | 否 | - | 群集脱机 |
重新启动 | 无故障 | 是 | 是 | 节点 A 中的 VM 故障转移到节点 B |
重新启动 | 重新启动 | 否 | - | 群集处于脱机状态,直到重启完成 |
核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 | 无故障 | 是 | 是 | 节点 A 中的 VM 故障转移到节点 B |
核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 | 核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 | 否 | - | 群集脱机 |
节点更新
节点 A | 节点 B | 群集幸存 | 故障转移 | 详细信息 |
---|---|---|---|---|
节点更新 | 无故障 | 是 | 是 | 节点 A 中的 VM 故障转移到节点 B |
节点更新 | 2 个 PSU 故障 | 否 | - | 群集脱机 |
节点更新 | 整个节点故障或脱机 | 否 | - | 群集脱机 |
节点更新 | 重新启动 | 否 | - | 群集脱机 |
节点更新 | 核心组件(例如主板、DIMM 和 OS 磁盘)发生故障。 | 否 | - | 群集脱机 |