Azure HDInsight 虛擬網路架構
本文說明將 HDInsight 叢集部署至自定義 Azure 虛擬網絡 時所存在的資源。 此資訊有助您將內部部署資源連線到 Azure 中的 HDInsight 叢集。 如需 Azure 虛擬網路的詳細資訊,請參閱什麼是 Azure 虛擬網路?
Azure HDInsight 叢集中的資源類型
Azure HDInsight 叢集具有不同類型的虛擬機器或節點。 每個節點類型都會在系統作業中都有其角色。 下表摘要說明這些節點類型及其在叢集中的角色。
類型 | 描述 |
---|---|
ZooKeeper 節點 | Zookeeper 會在執行資料處理的節點之間協調工作。 它也會執行前端節點的領導者選舉,並追蹤哪個前端節點正在執行特定的主要服務。 ZooKeeper 節點的數目固定為三個。 |
背景工作節點 | 表示支援資料處理功能的節點。 背景工作節點可以從叢集新增或移除,以調整運算功能和管理成本。 |
區域節點 | 針對 HBase 叢集類型,區域節點 (也稱為資料節點) 執行區域伺服器。 區域伺服器會提供和管理 HBase 部分受控資料。 區域節點可以從叢集新增或移除,以調整運算功能和管理成本。 |
資源命名慣例
在定址叢集中的節點時,使用完整網域名稱 (FQDN)。 您可以使用 Ambari API 來取得叢集中各種節點類型的 FQDN。
這些 FQDN 格式 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net
為 。
<node-type-prefix>
適用於hn
前端節點、wn
背景工作節點和 zn
zookeeper 節點。
如果您只需要主機名稱,請只使用 FQDN 的第一個部分:<node-type-prefix><instance-number>-<abbreviated-clustername>
基本虛擬網路資源
下圖顯示 Azure 中 HDInsight 節點和網路資源的位置。
Azure 虛擬網路中的預設資源包含上表所述的叢集節點類型。 以及支援虛擬網路與外部網路之間通訊的網路裝置。
下表摘要說明將 HDInsight 部署到自訂 Azure 虛擬網路時所建立的九個叢集節點。
資源類型 | 以數目顯示 | 詳細資料 |
---|---|---|
前端節點 | 2 | |
Zookeeper 節點 | 3 | |
背景工作節點 | 2 | 此數目可能會因叢集設定和縮放而有所不同。 Apache Kafka 至少需要三個背景工作節點。 |
閘道節點 | 2 | 閘道節點是在 Azure 上建立的 Azure 虛擬機器,但這些節點不會顯示在您的訂閱中。 如果您需要重新開機這些節點,請連絡支援人員。 |
下列網路資源會在搭配 HDInsight 使用的虛擬網路內自動建立:
網路資源 | 以數目顯示 | 詳細資料 |
---|---|---|
負載平衡器 | two | 負載平衡器會提供節點的輸入網路存取。 這兩個負載平衡器適用於:兩個前端節點和兩個網關節點。 負載平衡器是標準 SKU。 |
網路介面 | 九 | 此值是以一般叢集為基礎,其中每個節點都有自己的網路介面。 九個介面適用於:兩個前端節點、三個 zookeeper 節點、兩個背景工作節點,以及上表所述的兩個閘道節點。 |
公用 IP 位址 | 2 | 兩個公用IP位址會與負載平衡器結合。 |
有數個輸出連線方法可以與來源網路位址轉換 (SNAT) 中 說明的自定義虛擬網路搭配使用 ,以進行輸出連線 - Azure Load Balancer。
注意
建議的方法是將子網與 NAT 閘道產生關聯。 在建立 HDInsight 叢集之前,它需要 NAT 閘道和子網中建立的網路安全組。 您可以將公用IP或公用IP前綴與NAT閘道結合。 如需要建立的 NSG 規則,請參閱 控制 Azure HDInsight 中的網路流量
連線到 HDInsight 的端點
您可用下列三種方式存取 HDInsight 叢集:
- HTTPS 端點,其位於
CLUSTERNAME.azurehdinsight.net
的虛擬網路外部。 - SSH 端點,用於直接連線位於
CLUSTERNAME-ssh.azurehdinsight.net
的前端節點。 - HTTPS 端點,其位於虛擬網路
CLUSTERNAME-int.azurehdinsight.net
的內部。 請注意此 URL 中的「-int
」。 此端點會解析為該虛擬網路中的私人 IP,而且無法從公用網際網路存取。
這三個端點會分別指派負載平衡器。
公用 IP 位址也會提供給允許從虛擬網路外部連線的兩個端點。
- 一個公用 IP 會指派給負載平衡器,以便從網際網路
CLUSTERNAME.azurehdinsight.net
連線至該叢集時可使用完整網域名稱 (FQDN)。 - 第二個公用 IP 位址則用於僅限 SSH 連線的網域名稱
CLUSTERNAME-ssh.azurehdinsight.net
。