你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Stack Edge Pro GPU 设备上的群集故障转移方案

本文介绍常见的故障转移方案、Azure Stack Edge 设备的响应方式,以及发生故障转移时对部署在群集上的工作负荷的整体影响。

关于故障转移

Azure Stack Edge 可以设置为单个独立设备或双节点群集。 在双节点群集中,群集节点为群集上运行的应用程序和服务提供高可用性。

如果群集节点之一发生故障,另一个节点会开始提供服务 - 此过程称为故障转移。 如果与设备的一个或两个节点关联的硬件组件(例如磁盘驱动器、电源设备 (PSU) 或网络)出现故障,或者你在更新设备节点,则也可能会发生故障转移。

故障转移方案

故障转移可能是由硬件组件故障、节点故障或更新 Azure Stack Edge 群集引发的。

硬件失败

下面这些表汇总了与设备群集关联的物理硬件组件(例如,一个或多个磁盘驱动器、电源或网络)的故障情况。

磁盘驱动器故障

节点 A 节点 B 群集幸存 故障转移 详细信息
1 个磁盘驱动器故障 无故障 在更换磁盘之前,群集会降级。
2 个或更多个磁盘驱动器出现故障 无故障 在更换磁盘之前,群集会降级。
1 个或更多个磁盘驱动器出现故障 1 个或更多个磁盘驱动器出现故障 群集脱机。

电源设备故障

节点 A 节点 B 群集幸存 故障转移 详细信息
1 个 PSU 故障 无故障 节点 A 上的另一个电源故障会导致故障转移到节点 B。
1 个 PSU 故障 1 个 PSU 故障 不管什么节点上,另一个电源故障都会导致故障转移。
2 个 PSU 故障 无故障 节点 A 上的 VM 故障转移到节点 B。
2 个 PSU 故障 (TBC) 1 个 PSU 故障 节点 A 上的 VM 故障转移到节点 B。
2 个 PSU 故障 2 个 PSU 故障 群集脱机。

网络故障

节点 A 节点 B 群集幸存 故障转移 详细信息
端口 1、端口 2、端口 5 或端口 6 故障 无故障 故障端口不可用。 在此端口上进行侦听的应用受影响
端口 3 和/或端口 4 故障 无故障 节点 A 上的 VM 故障转移到节点 B

节点故障和更新

节点故障

此表汇总了群集上的一整个节点出现故障时的故障情况。

节点 A 节点 B 群集幸存 故障转移 详细信息
整个节点故障 无故障 节点 A 中的 VM 故障转移到节点 B
整个节点故障 整个节点故障 - 群集脱机
重新启动 无故障 节点 A 中的 VM 故障转移到节点 B
重新启动 重新启动 - 群集处于脱机状态,直到重启完成
核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 无故障 节点 A 中的 VM 故障转移到节点 B
核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 核心组件故障。 例如,主板、DIMM 和 OS 磁盘。 - 群集脱机

节点更新

节点 A 节点 B 群集幸存 故障转移 详细信息
节点更新 无故障 节点 A 中的 VM 故障转移到节点 B
节点更新 2 个 PSU 故障 - 群集脱机
节点更新 整个节点故障或脱机 - 群集脱机
节点更新 重新启动 - 群集脱机
节点更新 核心组件(例如主板、DIMM 和 OS 磁盘)发生故障。 - 群集脱机

后续步骤