你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Kubernetes 服务上的 Azure HDInsight 中的可靠性
注意
我们将于 2025 年 1 月 31 日停用 Azure HDInsight on AKS。 在 2025 年 1 月 31 日之前,你需要将工作负荷迁移到 Microsoft Fabric 或同等的 Azure 产品,以避免工作负荷突然终止。 订阅上的剩余群集会被停止并从主机中移除。
在停用日期之前,仅提供基本支持。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。
本文介绍了 Azure Kubernetes 服务 (AKS) 上的 Azure HDInsight 中的可靠性支持和灾难恢复和业务连续性。
可用性区域支持
可用性区域是每个 Azure 区域内在物理上独立的数据中心组。 当一个区域发生故障时,服务可以故障转移到其余区域中的一个。
有关 Azure 中可用性区域的详细信息,请参阅什么是可用性区域?。
通过利用 Azure Kubernetes 服务创建区域冗余节点池的能力,Azure HDInsight on AKS 支持可用性区域。 在创建群集池和群集时,可以选择要部署群集池和群集的可用性区域。 创建群集池或群集后,将无法更改可用性区域。
先决条件
仅在群集池版本 >=
1.2
和群集版本 >=1.2.1
时,才支持可用性区域。Azure HDInsight on AKS 只有一个默认 SKU,只要 Azure 区域支持 AZ,它就支持 AZ。
以下区域不支持 AZ:
美洲 欧洲 中东 非洲 亚太 美国西部 德国北部 某些 VM SKU 可能不支持区域中的所有可用性区域。 如果选择这些 SKU,则 HDInsight on AKS 群集池或群集也不支持相应的可用性区域。
SLA 改进
启用了可用性区域后,Azure HDInsight on AKS 群集的 SLA 不会增加。
创建启用可用性区域的资源
群集池 在选择区域后,可以在创建群集池时选择一个或多个可用性区域。
群集 在群集创建时,可以选择一个或多个可用性区域。
容错
要为可用性区域失败做好准备,建议超额预配服务容量,以确保群集可以容忍一个可用性区域发生故障造成的容量损失,并在区域范围的服务中断期间继续正常运行,而不会降低性能。 例如,如果启用 3 个可用性区域,则群集应能容忍 1/3 的节点故障(向上舍入为最接近的整数)。
区域故障体验
Azure HDInsight on AKS 服务是区域冗余。 在区域范围的服务中断期间,由于容量下降,客户应预期到性能下降。 客户仍然可以在未受到影响的可用性区域中创建新的群集池和群集。 现有群集可以在容量减少的情况下继续运行。 文档中提供了个别开放源代码工作负载建议和最佳做法。
灾难恢复和业务连续性
灾难恢复 (DR) 是指从会导致故障时间和数据丢失的高影响事件(例如自然灾害或部署失败)中恢复。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始考虑创建灾难恢复计划之前,请参阅设计灾难恢复策略的建议。
在 DR 方面,Microsoft 使用责任共担模型。 在共担责任模型中,Microsoft 会确保基线基础结构和平台服务可用。 同时,许多 Azure 服务不会自动复制数据,也不会从失败区域回退以交叉复制到另一个启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 大多数在 Azure 平台即服务 (PaaS) 产品/服务上运行的服务都提供支持 DR 的功能和指导,你可以使用特定于服务的功能来支持快速恢复,从而帮助制定 DR 计划。
Azure HDInsight on AKS 控制平面服务和数据库是跨 Azure 区域部署的。 在这些区域中,Azure HDInsight on AKS 实例和数据库实例是隔离的。 发生区域级别的中断时,一个区域将宕机。 此区域中的所有资源,包括 Azure HDInsight on AKS 控制平面的 RP(资源提供程序)、Azure HDInsight on AKS 控制平面的数据库和此区域中的所有客户群集。 在这种情况下,我们只能等待区域性中断结束。 区域性服务中断完全恢复后,Azure HDInsight on AKS 服务将恢复,所有客户群集也都会恢复正常。 在服务中断后,由于数据不一致,可能会出现一些问题,并且可能需要根据应用程序工作负载进行手动修复。
多区域灾难恢复
Azure HDInsight on AKS 目前不支持跨区域故障转移。 如果使用跨区域高可用性灾难恢复来提高业务连续性,则所需的体系结构设计复杂性更高且成本更高。 客户可以选择设计自己的解决方案,以跨不同区域备份关键数据和作业状态。
服务中断检测、通知和管理
使用 HDInsight on AKS 上的 Azure 监视工具检测群集中的异常行为并设置相应的警报通知。 你可以通过各种方式启用 Log Analytics,并将托管 Prometheus 服务与 Azure Grafana 仪表板配合使用进行监视。 有关详细信息,请参阅 Azure Monitor 集成。
订阅 Azure 运行状况警报,以获得有关订阅、服务或区域的服务问题、计划内维护、运行状况和安全建议的通知。 包含问题原因和解决方法 ETA 的运行状况通知可帮助你更好地执行故障转移和故障回复。 有关详细信息,请参阅管理服务运行状况和 Azure 服务运行状况文档。
单区域灾难恢复
目前,Azure HDInsight on AKS 只有一个标准服务产品,并且群集是在单区域地理位置创建的。 客户有责任根据应用程序要求进行灾难恢复设置。
容量和主动灾难恢复复原能力
Azure HDInsight on AKS 及其客户在共担责任模型下运行,这意味着客户必须满足对他们部署和控制的服务的灾难恢复要求。 为了确保恢复是主动的,客户应始终预先部署辅助资源,因为对于那些尚未预先分配的资源,无法在影响发生时保证容量。
与 HDInsight 不同,HDInsight on AKS 群集中使用的虚拟机需要与 Azure VM 相同的配额。 有关详细信息,请参阅容量规划。
相关内容
若要详细了解本文中所述的项,请参阅: