你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Operator Nexus 中的可靠性
重要
此功能目前以预览版提供。 需同意补充使用条款才可使用预览版。
本文介绍了 Azure Operator Nexus 中的可靠性支持,并涵盖了通过可用性区域实现的区域内复原能力。 有关 Azure 中可靠性的更详细概述,请参阅 Azure 可靠性。
可用性区域支持
Azure 可用性区域是每个 Azure 地区内的至少三个在物理上独立的数据中心组。 每个区域中的数据中心都配备了独立的电源、冷却系统和网络基础结构。 在本地区域发生故障的情况下,设计可用性区域,以便一个区域受到影响时,其余两个区域支持区域服务、容量和高可用性。
故障范围包括软件和硬件故障,以及地震、洪水和火灾等事件。 容错是通过 Azure 服务的冗余和逻辑隔离来实现的。 有关 Azure 中可用性区域的详细信息,请参阅地区和可用性区域。
已启用 Azure 可用性区域的服务旨在提供适当级别的可靠性和灵活性。 可以通过两种方式进行相关配置。 可以采用区域冗余配置,实现跨区域自动复制,也可以采用区域性配置,将实例固定到特定区域。 还可以将这些方法结合。 有关区域与区域冗余体系结构的详细信息,请参阅有关使用可用性区域和区域的建议。
默认情况下,Azure Operator Nexus 提供可用性区域冗余部署。 Operator Nexus 组件(例如群集管理器和网络结构控制器)全部部署在启用了可用性区域的 Azure Kubernetes 服务 (AKS) 群集上。 其他服务依赖项也配置了可用性区域冗余,例如存储帐户服务和 KeyVault。
注意
Operator Nexus 本地实例实现了多机架设计,在堆栈的所有级别提供物理冗余。 每个机架都设计为故障域或 Nexus 区域。 客户工作负载可以跨多个机架/节点部署,实质上提供类似的多可用性区域体验。
Azure 可用性区域关闭体验
在可用性区域关闭方案中,针对群集和资源提供程序的 API 调用将继续工作,而不会中断。 当前运行的本地租户工作负载或创建新租户工作负载的功能不会受到影响。 此外,不会发生数据丢失,因为可确保 Operator Nexus 和其他资源类型的复原能力。
Azure 可用性区域故障转移支持
如果可用性区域发生故障,则重新连接到另一个 Azure 可用性区域是自动的,无需用户交互。
Operator Nexus 实例部署的可用性
确保 Azure Operator Nexus 工作负载部署的可用性是一项需要分工的职责。 如上一部分所述,基于 Operator Nexus AKS 的资源部署时具有可用性区域冗余。 在本部分中,我们会讨论本地工作负载可用性的最佳做法。
一般情况下,可用性目标是通过本地部署和异地冗余部署来实现的。
Nexus 区域:本地工作负载冗余的机制
Operator Nexus 本地实例由多机架设计组成,可在堆栈的所有级别提供物理冗余。 每个机架都被指定为故障域,因此,它们可以配置为 Nexus 区域,这些区域最好用于本地冗余工作负载部署。
Nexus 实例:异地工作负载冗余的机制
Nexus 本地实例托管在特定 Azure 区域中。 如前所述,使用的 Azure 服务和 Nexus 资源部署在该 Azure 区域的多个可用性区域中。
异地分布的(即不在同一操作员数据中心,甚至可能不在同一地理区域)并且托管在不同 Azure 区域中的 Nexus 实例应该用于冗余部署工作负载以实现异地冗余。
警告
例如,在分布在两个地理位置的 Nexus 实例上部署工作负载不足以实现真正的异地冗余,除非异地冗余 Nexus 实例托管在不同的 Azure 区域。
在 Azure 区域不可用的情况下,Azure 服务以及该区域中的 Nexus 资源也将变得不可用。 虽然这不会影响正在运行的工作负载,但它会阻止启动新工作负载、分析等功能。
同一地理位置中的多个 Nexus 实例
在某些情况下,需要在同一地理位置部署多个 Nexus 实例。 工作负载异地冗余显然无法通过在同一地理位置的 Nexus 实例上部署工作负载来实现。
在设计可靠性时,除了可用性之外,另一个考虑因素是复原能力和从故障中恢复的能力。 从故障中恢复以及满足恢复时间目标的能力要求我们限制故障的“爆炸”或影响半径。 在同一地理位置部署多个 Nexus 实例的方案中,可复原设计要求这些 Nexus 实例托管在不同的 Azure 区域中。 因此,当 Azure 区域发生故障时,其影响仅限于一个 Nexus 实例。