群集存储简介
重要
AKS 上的 Azure HDInsight 已于 2025 年 1 月 31 日停用。 了解此公告的详细信息。
需要将工作负荷迁移到 Microsoft Fabric 或等效的 Azure 产品,以避免工作负荷突然终止。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版补充使用条款 包括适用于 beta 版、预览版或尚未正式发布的 Microsoft Azure 功能的更多法律条款。 有关 Azure HDInsight on AKS 特定预览的信息,请参阅 。 有关问题或功能建议,请在 AskHDInsight 上提交请求,并提供详细信息。请关注我们以获取有关 Azure HDInsight 社区 的更多更新。
AKS 上的 Azure HDInsight 可以与 Azure 存储无缝集成,这是一种通用存储解决方案,适用于许多其他 Azure 服务。 Azure Data Lake Storage Gen2(ADLS Gen 2)是群集的默认文件系统。
存储帐户可用作在群集作期间生成的数据、群集日志和其他输出的默认位置。 它也可以是 Hive 目录的默认存储,具体取决于群集类型。
有关详细信息,请参阅 Azure Data Lake Storage Gen2 简介。
用于安全文件访问的托管标识
AKS 上的 Azure HDInsight 使用托管标识(MSI)来保护群集对 Azure Data Lake Storage Gen2 中的文件的访问。 托管标识是 Microsoft Entra ID 的一项功能,它为 Azure 服务提供一组自动托管凭据。 这些凭据可用于向支持 Active Directory 身份验证的任何服务进行身份验证。 此外,托管标识不需要将凭据存储在代码或配置文件中。
在 AKS 上的 Azure HDInsight 中,在创建群集期间选择托管标识和存储后,托管标识可以与存储无缝协同进行数据管理,前提是将 存储 Blob 数据所有者 角色分配给用户分配的 MSI。
下表概述了 AKS 上的 Azure HDInsight 支持的存储选项(公共预览版):
群集类型 | 支持的存储 | 连接 | 存储上的角色 |
---|---|---|---|
Trino、Apache Flink 和 Apache Spark | ADLS Gen2 | 群集用户分配的托管标识 (MSI) | 用户分配的 MSI 需要在存储帐户上具有 存储 Blob 数据所有者 角色。 |
注意
若要跨多个群集共享存储帐户,只需在共享存储帐户上分配相应的群集用户分配的 MSI“存储 Blob 数据所有者”。 了解如何 分配角色。
之后,可以使用完整的存储 abfs://
路径通过应用程序访问数据。
有关详细信息,请参阅 Azure 资源的托管标识 。
学习如何 创建 ADLS Gen2 帐户。
AKS 存储体系结构上的 Azure HDInsight
下图提供了 Azure 存储 AKS 体系结构上的 Azure HDInsight 抽象视图。
显示存储体系结构的
存储管理
目前,AKS 上的 Azure HDInsight 不支持启用了软删除的存储帐户,请确保为存储帐户禁用软删除。