你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HDInsight 虚拟网络体系结构

本文介绍了在将 HDInsight 群集部署到自定义 Azure 虚拟网络时存在的资源。 此信息可帮助你将本地资源连接到 Azure 中的 HDInsight 群集。 有关 Azure 虚拟网络的详细信息,请参阅什么是 Azure 虚拟网络?

Azure HDInsight 群集中的资源类型

Azure HDInsight 群集包含不同类型的虚拟机(或节点)。 每个节点类型对于系统的正常运行发挥着相应的作用。 下表汇总了这些节点类型及其在群集中的作用。

类型 描述
ZooKeeper 节点 ZooKeeper 协调执行数据处理的节点之间的任务。 它还执行头节点的主控选择,并跟踪哪个头节点正在运行特定的主服务。 ZooKeeper 节点数目固定为 3 个。
工作器节点 表示支持数据处理功能的节点。 可以在群集中添加或删除工作器节点,以缩放计算能力和控制成本。
区域节点 对于 HBase 群集类型,区域节点(也称为数据节点)将运行区域服务器。 区域服务器为 HBase 管理的一部分数据提供服务,并对其进行管理。 可以在群集中添加或删除区域节点,以缩放计算能力和控制成本。

资源命名约定

在对群集中的节点进行寻址时,使用完全限定的域名 (FQDN)。 可以使用 Ambari API 获取群集中各种节点类型的 FQDN。

这些 FQDN 采用 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net 的形式。

对于头节点,<node-type-prefix>hn,对于辅助角色节点为 wn,对于 Zookeeper 节点为 zn

如果只需要主机名,则仅使用 FQDN 的第一部分:<node-type-prefix><instance-number>-<abbreviated-clustername>

基本虚拟网络资源

下图显示了 HDInsight 节点和网络资源在 Azure 中的位置。

在 Azure 自定义虚拟网络中创建的 HDInsight 实体的示意图。

Azure 虚拟网络中的默认资源包括上表中提到的群集节点类型。 同时包括支持虚拟网络和外部网络之间的通信的网络设备。

下表汇总了将 HDInsight 部署到自定义 Azure 虚拟网络时创建的 9 个群集节点。

资源类型 提供的数量 详细信息
头节点 two
Zookeeper 节点 three
工作器节点 two 此数字根据群集的配置和规模而异。 Apache Kafka 至少需要 3 个工作器节点。
网关节点 two 网关节点是在 Azure 中创建的、但不会在订阅中显示的 Azure 虚拟机。 如果需要重新启动这些节点,请联系支持人员。

在与 HDInsight 配合使用的虚拟网络中,会自动创建以下网络资源:

网络资源 提供的数量 详细信息
负载均衡器 两种 负载均衡器为节点提供入站网络访问。 这两个负载均衡器适用于:两个头节点和两个网关节点。 负载均衡器是标准 SKU。
网络接口 9 个 此值基于普通群集,在此类群集中,每个节点具有自身的网络接口。 9 个接口分别用于上表中所述的 2 个头节点、3 个 ZooKeeper 节点、2 个工作器节点和 2 个网关节点。
公共 IP 地址 two 两个公共 IP 地址绑定到负载均衡器。

有多种出站连接方法可用于出站连接的源网络地址转换 (SNAT) - Azure 负载均衡器中所述的自定义虚拟网络。

注意

建议的方法是将子网与 NAT 网关相关联。 该方法要求具有 NAT 网关以及在子网中创建的网络安全组,然后才能创建 HDInsight 群集。 你可以将公共 IP 或公共 IP 前缀与 NAT 网关绑定。 有关要创建的 NSG 规则,请参阅在 Azure HDInsight 中控制网络流量

用于连接 HDInsight 的终结点

可通过三种方式访问 HDInsight 群集:

  • 虚拟网络 (CLUSTERNAME.azurehdinsight.net) 外部的 HTTPS 终结点。
  • 直接连接到位于 CLUSTERNAME-ssh.azurehdinsight.net 中的头节点的 SSH 终结点。
  • 虚拟网络 (CLUSTERNAME-int.azurehdinsight.net) 内部的 HTTPS 终结点。 请注意此 URL 中的“-int”。 此终结点解析为该虚拟网络中的专用 IP,无法从公共 Internet 访问。

在这 3 个终结点中,每个终结点分配有一个负载均衡器。

此外,将为 2 个终结点提供公共 IP 地址,以便从虚拟网络外部进行连接。

  1. 将为负载均衡器分配 1 个公共 IP,以便从 Internet CLUSTERNAME.azurehdinsight.net 连接到群集时使用完全限定的域名 (FQDN)。
  2. 第二个公共 IP 地址用于仅限 SSH 的域名 CLUSTERNAME-ssh.azurehdinsight.net

后续步骤