你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Operator Nexus 中的可靠性

重要

此功能目前以预览版提供。 需同意补充使用条款才可使用预览版。

本文介绍了 Azure Operator Nexus 中的可靠性支持,并涵盖了通过可用性区域实现的区域内复原能力。 有关 Azure 中可靠性的更详细概述,请参阅 Azure 可靠性

可用性区域支持

可用性区域是每个 Azure 区域内在物理上独立的数据中心组。 当一个区域发生故障时,服务可以故障转移到其余区域中的一个。

有关 Azure 中可用性区域的详细信息,请参阅什么是可用性区域?

默认情况下,Azure Operator Nexus 提供可用性区域冗余部署。 Operator Nexus 组件(例如群集管理器和网络结构控制器)全部部署在启用了可用性区域的 Azure Kubernetes 服务 (AKS) 群集上。 其他服务依赖项也配置了可用性区域冗余,例如存储帐户服务和 KeyVault。

注意

Operator Nexus 本地实例实现了多机架设计,在堆栈的所有级别提供物理冗余。 每个机架都设计为故障域或 Nexus 区域。 客户工作负载可以跨多个机架/节点部署,实质上提供类似的多可用性区域体验。

Azure 可用性区域关闭体验

在可用性区域关闭方案中,针对群集和资源提供程序的 API 调用将继续工作,而不会中断。 当前运行的本地租户工作负载或创建新租户工作负载的功能不会受到影响。 此外,不会发生数据丢失,因为可确保 Operator Nexus 和其他资源类型的复原能力。

Azure 可用性区域故障转移支持

如果可用性区域发生故障,则重新连接到另一个 Azure 可用性区域是自动的,无需用户交互。

Operator Nexus 实例部署的可用性

确保 Azure Operator Nexus 工作负载部署的可用性是一项需要分工的职责。 如上一部分所述,基于 Operator Nexus AKS 的资源部署时具有可用性区域冗余。 在本部分中,我们会讨论本地工作负载可用性的最佳做法。

一般情况下,可用性目标是通过本地部署和异地冗余部署来实现的。

Nexus 区域:本地工作负载冗余的机制

Operator Nexus 本地实例由多机架设计组成,可在堆栈的所有级别提供物理冗余。 每个机架都被指定为故障域,因此,它们可以配置为 Nexus 区域,这些区域最好用于本地冗余工作负载部署。

Nexus 实例:异地工作负载冗余的机制

Nexus 本地实例托管在特定 Azure 区域中。 如前所述,使用的 Azure 服务和 Nexus 资源部署在该 Azure 区域的多个可用性区域中。

异地分布的(即不在同一操作员数据中心,甚至可能不在同一地理区域)并且托管在不同 Azure 区域中的 Nexus 实例应该用于冗余部署工作负载以实现异地冗余。

警告

例如,在分布在两个地理位置的 Nexus 实例上部署工作负载不足以实现真正的异地冗余,除非异地冗余 Nexus 实例托管在不同的 Azure 区域。

在 Azure 区域不可用的情况下,Azure 服务以及该区域中的 Nexus 资源也将变得不可用。 虽然这不会影响正在运行的工作负载,但它会阻止启动新工作负载、分析等功能。

同一地理位置中的多个 Nexus 实例

在某些情况下,需要在同一地理位置部署多个 Nexus 实例。 工作负载异地冗余显然无法通过在同一地理位置的 Nexus 实例上部署工作负载来实现。

在设计可靠性时,除了可用性之外,另一个考虑因素是复原能力和从故障中恢复的能力。 从故障中恢复以及满足恢复时间目标的能力要求我们限制故障的“爆炸”或影响半径。 在同一地理位置部署多个 Nexus 实例的方案中,可复原设计要求这些 Nexus 实例托管在不同的 Azure 区域中。 因此,当 Azure 区域发生故障时,其影响仅限于一个 Nexus 实例。

后续步骤