在 AKS 上的 HDInsight 中创建 Spark 群集(预览版)

重要

AKS 上的 Azure HDInsight 已于 2025 年 1 月 31 日停用。 了解此公告的详细信息

需要将工作负荷迁移到 Microsoft Fabric 或等效的 Azure 产品,以避免工作负荷突然终止。

重要

此功能目前以预览版提供。 Microsoft Azure 预览版补充使用条款 包括适用于测试阶段、预览阶段或尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 AKS 预览版信息的 Azure HDInsight。 有关问题或功能建议,请在 AskHDInsight 上提交请求,并提供详细信息。请关注我们以获取有关 Azure HDInsight 社区的更多更新。

订阅先决条件资源先决条件 步骤完成后,部署群集池后,继续使用 Azure 门户创建 Spark 群集。 可以使用 Azure 门户在群集池中创建 Apache Spark 群集。 然后,可以创建 Jupyter Notebook,并使用它针对 Apache Hive 表运行 Spark SQL 查询。

  1. 在 Azure 门户中,键入群集池,并选择群集池以转到群集池页。 在“群集池”页上,选择可在其中添加新 Spark 群集的群集池。

  2. 在特定的群集池页上,单击“+ 新建群集

    显示如何创建新的 Spark 集群的屏幕截图。

    此步骤将打开群集创建页。

    显示“创建群集基本信息页面”的屏幕截图。

    财产 描述
    订阅 在“先决条件”部分中注册用于 AKS 上的 HDInsight 的 Azure 订阅会被预填充。
    资源组 与集群池相同的资源组将被预填充
    地区 与群集池和虚拟相同的区域将被预先填充
    群集池 群集池的名称将被预填充
    HDInsight 池版本 将从池创建选择中预填充群集池版本
    AKS 版本的 HDInsight 在 AKS 版本上指定 HDI
    群集类型 从下拉列表中选择“Spark”
    群集版本 选择要使用的映像版本的版本
    群集名称 输入新群集的名称
    用户分配的托管标识 选择用户分配的托管标识,该标识将用作存储的连接字符串
    存储帐户 选择预创建的存储帐户,该帐户将用作群集的主存储
    容器名称 如果预先创建或创建新容器,请选择容器名称(唯一)
    Hive 目录(可选) 选择预先创建好的 Hive 元存储(Azure SQL DB)
    用于 Hive 的 SQL 数据库 从下拉列表中,选择要在其中添加 hive 元存储表的 SQL 数据库。
    SQL 管理员用户名 输入 SQL 管理员用户名
    密钥库 从下拉列表中选择 Key Vault,其中包含具有 SQL 管理员用户名密码的机密
    SQL 密码密钥名称 从存储 SQL DB 密码的 Key Vault 中输入机密名称

    注意

    • 目前 HDInsight 仅支持 MS SQL Server 数据库。
    • 由于 Hive 限制,不支持元存储数据库名称中的“-”(连字符)字符。
  3. 选择,接下来:配置 + 定价以继续。

    显示定价选项卡 1 的屏幕截图。

    显示定价选项卡 2 的屏幕截图。

    显示 ssh 选项卡的 屏幕截图。

    财产 描述
    节点大小 选择要用于 Spark 节点的节点大小
    工作器节点数 选择 Spark 群集的节点数。 在这些节点中,为协调器和系统服务保留三个节点,其余节点专用于 Spark 辅助角色,每个节点一个工作器。 例如,在一个由五个节点组成的集群中,有两个工作节点。
    自动缩放 单击切换按钮以启用自动缩放
    自动缩放类型 从基于负载的或基于计划的自动缩放中进行选择
    优雅停用超时 指定正常解除授权超时
    默认工作节点数量 选择自动缩放的节点数
    时区 选择时区
    自动缩放规则 选择日期、开始时间、结束时间、工作节点数量
    启用 SSH 如果已启用,则允许定义 SSH 节点的前缀和编号
  4. 单击 下一步:集成 来启用并选择 Log Analytics 进行日志记录。

    可以在创建群集后启用用于监视和指标的 Azure Prometheus。

    显示“集成”选项卡的 屏幕截图。

  5. 单击下一步:标记,以继续转到下一页。

    显示标记选项卡的 屏幕截图。

  6. 标签 页上,输入您想添加到资源中的任何标签。

    财产 描述
    名字 自选。 在 AKS 专用预览版上输入 HDInsight 等名称,以轻松识别与资源关联的所有资源
    价值 将此保留为空
    资源 选择“所有资源”
  7. 单击“下一步”:查看并创建

  8. 审阅 + 创建页面上,查找页面顶部的验证成功消息,然后单击 创建

  9. 部署正在进行中,正在显示 页,该页与群集的创建有关。 创建群集需要 5-10 分钟。 创建群集后,会显示消息:“您的部署已完成”。 如果离开页面,可以检查通知的状态。

  10. 转到 群集概述页,可在其中查看终结点链接。

    显示群集概述页的 屏幕截图。