什么是 AKS 上的 HDInsight 中的 Apache Spark™? (预览版)
重要
AKS 上的 Azure HDInsight 已于 2025 年 1 月 31 日停用。 通过公告 了解更多信息。
需要将工作负荷迁移到 Microsoft Fabric 或等效的 Azure 产品,以避免工作负荷突然终止。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款 包括适用于 beta 版、预览版或其它尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览的信息,请参阅 AKS 预览版信息的 Azure HDInsight。 有关问题或功能建议,请在 AskHDInsight 上提交请求,并提供详细信息,同时关注我们以获取 Azure HDInsight 社区 的更多更新。
Apache Spark™ 是一个并行处理框架,支持内存中处理以提高大数据分析应用程序的性能。
Apache Spark™ 为内存中群集计算提供基元。 Spark 作业可以将数据加载并缓存到内存中,并重复查询数据。 内存中计算比基于磁盘的应用程序快,例如 Hadoop,它通过 Hadoop 分布式文件系统(HDFS)共享数据。 Apache Spark 允许与 Scala 和 Python 编程语言集成,使你能够像本地集合一样处理分布式数据集。 无需将所有内容构建为映射和化简作。
在 AKS 上的 HDInsight 中显示的 Spark 概述的
使用 HDInsight 在 AKS 上部署的 Apache Spark 群集
Azure HDInsight 是面向企业的托管、全面的开源分析服务。
Microsoft Azure 中的 AKS 上的 Azure HDInsight 中的 Apache Spark™ 是托管 Spark 服务。 使用 AKS 上的 Azure HDInsight 中的 Apache Spark,可以在 Azure 中存储和处理所有数据。 HDInsight 中的 Spark 群集与 Azure Data Lake Storage Gen2 兼容或,允许对现有数据存储应用 Spark 处理。
AKS 上的 HDInsight Apache Spark 框架使用内存中处理实现快速数据分析和群集计算。 Jupyter Notebook 允许你与数据交互,将代码与 markdown 文本组合在一起,并执行简单的可视化效果。
在 HDInsight 中,AKS 上的 Apache Spark 由多个组件组成,并以 Pod 的形式存在。
群集控制器
群集控制器负责安装和管理服务。 在 Spark 群集中安装和管理各种控制器。
Apache Spark 服务组件
Zookeeper 服务: 一个三节点 Zookeeper 群集,充当其他服务的分布式协调器或高可用性存储。
Yarn 服务: Hadoop Yarn 群集,Spark 作业将在群集中作为 Yarn 应用程序进行调度。
客户端接口: AKS 上的 HDInsight 中的 Apache Spark 群集提供各种客户端接口。 Livy Server、Jupyter Notebook、Spark History Server 向 AKS 用户的 HDInsight 提供 Spark 服务。
参考
- Apache、Apache Spark、Spark 和关联的开源项目名称 Apache Software Foundation(ASF) 的商标。