AKS 上的 HDInsight - 常见问题
本文介绍了有关 AKS 上的 Azure HDInsight 的一些常见问题。
重要
AKS 上的 Azure HDInsight 已于 2025 年 1 月 31 日停用。 了解此公告的详细信息。
需要将工作负荷迁移到 Microsoft Fabric 或等效的 Azure 产品,以避免工作负荷突然终止。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款 包括适用于 beta 版、预览版或尚未全面发布的 Azure 功能的更多法律条款。 有关此特定预览的信息,请参阅 Azure HDInsight on AKS 预览版信息。 有关问题或功能建议,请在 AskHDInsight 上提交请求,附上详细信息,并关注我们以获取关于 Azure HDInsight 社区 的更多更新。
常规
什么是 AKS 上的 HDInsight?
AKS 上的 HDInsight 是一个新的 HDInsight 版本,它为企业配备了适合使用的托管集群服务,并支持新兴的开源分析项目,如 Apache Flink(用于流处理)、Trino(用于按需分析和商业智能),以及 Apache Spark。 有关详细信息,请参阅 概述。
AKS 上的 HDInsight 支持哪些群集形状?
AKS 上的 HDInsight 首先支持 Trino、Apache Flink 和 Apache Spark。 但是,其他群集形状(如 Kafka、Hive 等)都在路线图中。
如何开始使用 AKS 上的 HDInsight?
若要开始,请访问 Azure Marketplace,搜索 AKS 服务中的 Azure HDInsight,并参考 入门指南。
现有的 HDInsight 在虚拟机和我今天运行的群集上会发生什么情况?
现有的 HDInsight(VM 上的 HDInsight)没有变化。 所有现有群集继续运行,可以继续创建新的 HDInsight 群集并缩放。
AKS 上的 HDInsight 支持哪种操作系统?
AKS 上的 HDInsight 基于 Mariner OS。 有关详细信息,请参阅 OS 版本。
在哪些地区可以使用 AKS 上的 HDInsight?
有关受支持区域的列表,请参阅 区域可用性。
在 AKS 群集上部署 HDInsight 的成本是多少?
有关定价的详细信息,请参阅有关 AKS 定价的 HDInsight。
群集管理
是否可以同时运行多个群集?
可以,可以同时为每个群集池运行任意数量的群集。 但是,请确保不受订阅配额的约束。 群集池中允许的最大节点数为 250(公共预览版)。
是否可以在群集上安装或添加更多插件/库?
是的,可以根据群集形状安装自定义插件和库。
是否可以通过 SSH 连接到群集?
是的,可以通过 Webssh 通过 SSH 连接到群集,并直接从该处执行查询并提交作业。
元存储
是否可以使用外部元数据存储连接到群集?
是的,可以使用外部元存储。 但是,我们仅支持 Azure SQL 数据库作为外部自定义元存储。
可以在多个集群之间共享一个元存储吗?
是的,您可以在 AKS 的多个 HDInsight 之间共享元数据存储。
支持的 Hive Metastore 版本是什么?
Hive 元存储版本 3.1.2
工作量
Trino
什么是 Trino?
Trino 是一个开源联合和分布式 SQL 查询引擎,可用于查询驻留在不同数据源上的数据,而无需移动到中央数据仓库。 可以使用 ANSI SQL 查询数据,无需学习新语言。 有关详细信息,请参阅 Trino 概述。
支持哪些连接器?
AKS Trino 上的 HDInsight 支持多个连接器。 有关详细信息,请参阅此 Trino 连接器列表。 在开源版本中提供新连接器时,我们会继续添加新连接器。
是否可以将目录添加到现有群集?
是的,可以向现有群集添加支持的目录。 有关详细信息,请参阅 将目录添加到现有群集。
Apache Flink
什么是 Apache Flink?
Apache Flink 是一种最佳的开源分析引擎,用于流处理,并针对未绑定和有限数据流执行有状态计算。 它可以以内存速度和任意规模执行计算。 AKS 上的 HDInsight 提供托管的开源 Apache Flink。 有关详细信息,请参阅 Flink 概述。
是否支持 Apache Flink 中的会话和应用模式?
在 AKS 上的 HDInsight 中,Flink 当前支持会话模式群集。
什么是状态后端管理以及如何在 AKS 上的 HDInsight 中完成?
后端确定存储状态的位置。 激活检查点时,状态将在检查点处持久化,以防止数据丢失并确保一致性恢复。 状态在内部表示的方式,以及检查点上保留状态的方式和位置取决于所选的状态后端。 有关详细信息,请参阅 Flink 概述
Apache Spark
什么是 Apache Spark?
Apache Spark 是一种数据处理框架,可快速在大型数据集上执行处理任务,还可以单独或与其他分布式计算工具一起跨多台计算机分发数据处理任务。
Spark 支持哪些语言 API?
AKS 上的 Azure HDInsight 支持 Python 和 Scala。
AKS Spark 上的 HDInsight 是否支持外部元存储?
AKS 上的 HDInsight 支持外部元存储连接。 目前仅支持 Azure SQL DB 作为外部元存储。
在 AKS Spark 上的 HDInsight 中提交作业的各种方法有哪些?
可以使用 Jupyter Notebook、Zeppelin Notebook、SDK 和群集终端在 AKS Spark 上的 HDInsight 上提交作业。 有关详细信息,请参阅 在 AKS 上的 HDInsight 中提交和管理 Spark 群集上的作业