共用方式為


Azure HDInsight 虛擬網路架構

本文說明將 HDInsight 叢集部署至自定義 Azure 虛擬網絡 時所存在的資源。 此資訊有助您將內部部署資源連線到 Azure 中的 HDInsight 叢集。 如需 Azure 虛擬網路的詳細資訊,請參閱什麼是 Azure 虛擬網路?

Azure HDInsight 叢集中的資源類型

Azure HDInsight 叢集具有不同類型的虛擬機器或節點。 每個節點類型都會在系統作業中都有其角色。 下表摘要說明這些節點類型及其在叢集中的角色。

類型 描述
ZooKeeper 節點 Zookeeper 會在執行資料處理的節點之間協調工作。 它也會執行前端節點的領導者選舉,並追蹤哪個前端節點正在執行特定的主要服務。 ZooKeeper 節點的數目固定為三個。
背景工作節點 表示支援資料處理功能的節點。 背景工作節點可以從叢集新增或移除,以調整運算功能和管理成本。
區域節點 針對 HBase 叢集類型,區域節點 (也稱為資料節點) 執行區域伺服器。 區域伺服器會提供和管理 HBase 部分受控資料。 區域節點可以從叢集新增或移除,以調整運算功能和管理成本。

資源命名慣例

在定址叢集中的節點時,使用完整網域名稱 (FQDN)。 您可以使用 Ambari API 來取得叢集中各種節點類型的 FQDN。

這些 FQDN 格式 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net為 。

<node-type-prefix>適用於hn前端節點、wn背景工作節點和 zn zookeeper 節點。

如果您只需要主機名稱,請只使用 FQDN 的第一個部分:<node-type-prefix><instance-number>-<abbreviated-clustername>

基本虛擬網路資源

下圖顯示 Azure 中 HDInsight 節點和網路資源的位置。

在 Azure 自定義虛擬網路中建立的 HDInsight 實體圖表。

Azure 虛擬網路中的預設資源包含上表所述的叢集節點類型。 以及支援虛擬網路與外部網路之間通訊的網路裝置。

下表摘要說明將 HDInsight 部署到自訂 Azure 虛擬網路時所建立的九個叢集節點。

資源類型 以數目顯示 詳細資料
前端節點 2
Zookeeper 節點 3
背景工作節點 2 此數目可能會因叢集設定和縮放而有所不同。 Apache Kafka 至少需要三個背景工作節點。
閘道節點 2 閘道節點是在 Azure 上建立的 Azure 虛擬機器,但這些節點不會顯示在您的訂閱中。 如果您需要重新開機這些節點,請連絡支援人員。

下列網路資源會在搭配 HDInsight 使用的虛擬網路內自動建立:

網路資源 以數目顯示 詳細資料
負載平衡器 two 負載平衡器會提供節點的輸入網路存取。 這兩個負載平衡器適用於:兩個前端節點和兩個網關節點。 負載平衡器是標準 SKU。
網路介面 此值是以一般叢集為基礎,其中每個節點都有自己的網路介面。 九個介面適用於:兩個前端節點、三個 zookeeper 節點、兩個背景工作節點,以及上表所述的兩個閘道節點。
公用 IP 位址 2 兩個公用IP位址會與負載平衡器結合。

有數個輸出連線方法可以與來源網路位址轉換 (SNAT) 中 說明的自定義虛擬網路搭配使用 ,以進行輸出連線 - Azure Load Balancer

注意

建議的方法是將子網與 NAT 閘道產生關聯。 在建立 HDInsight 叢集之前,它需要 NAT 閘道和子網中建立的網路安全組。 您可以將公用IP或公用IP前綴與NAT閘道結合。 如需要建立的 NSG 規則,請參閱 控制 Azure HDInsight 中的網路流量

連線到 HDInsight 的端點

您可用下列三種方式存取 HDInsight 叢集:

  • HTTPS 端點,其位於 CLUSTERNAME.azurehdinsight.net 的虛擬網路外部。
  • SSH 端點,用於直接連線位於 CLUSTERNAME-ssh.azurehdinsight.net 的前端節點。
  • HTTPS 端點,其位於虛擬網路 CLUSTERNAME-int.azurehdinsight.net 的內部。 請注意此 URL 中的「-int」。 此端點會解析為該虛擬網路中的私人 IP,而且無法從公用網際網路存取。

這三個端點會分別指派負載平衡器。

公用 IP 位址也會提供給允許從虛擬網路外部連線的兩個端點。

  1. 一個公用 IP 會指派給負載平衡器,以便從網際網路 CLUSTERNAME.azurehdinsight.net 連線至該叢集時可使用完整網域名稱 (FQDN)。
  2. 第二個公用 IP 位址則用於僅限 SSH 連線的網域名稱 CLUSTERNAME-ssh.azurehdinsight.net

下一步