建立 HDInsight 叢集

已完成

可用來建立 HDInsight 叢集的方法有很多種,從使用 Azure 入口網站進行的易用使用者介面,到可協助進行自動化部署的指令碼式設定。 下表顯示可用來設定 HDInsight 叢集的不同方法。

叢集建立方法 網頁瀏覽器 命令列 REST API SDK
Azure 入口網站
Azure Data Factory
Azure CLI
Azure PowerShell
cURL
.NET SDK
Azure Resource Manager 範本

所有的 HDInsight 設定都需要下列基本資訊,包括:

[基本] 索引標籤

專案詳細資料

訂用帳戶

定義要用來計費及管理 HDInsight 的 Azure 訂用帳戶。

資源群組名稱

資源群組是 Azure 技術及服務的邏輯群組,通常會與相同的應用程式或應用程式生命週期有關。 將服務組成相同的資源群組可減輕系統管理維護上的負擔。

Azure 入口網站 [建立 HDInsight 叢集] 畫面中 [基本] 索引標籤的螢幕擷取畫面

叢集詳細資料

叢集名稱

HDInsight 叢集名稱具有下列限制:

  • 允許的字元:a-z、0-9、A-Z
  • 長度上限:59
  • 保留名稱:apps
  • 叢集命名範圍適用於所有 Azure,橫跨所有訂用帳戶。 因此,叢集名稱必須是全球唯一的。
  • 前六個字元在 VNET 內必須是唯一的

位置

指定儲存叢集類型的位置。 如果沒有定義位置,則叢集會共置在和預設儲存體相同的位置。 該位置應該要盡可能接近您的使用者,以減少延遲。

叢集類型

定義佈建在您資源叢集上的技術堆疊。 根據您擁有的資料類型,以及您案例所需的處理種類來選取叢集類型。 下表顯示可用的叢集類型。  

叢集類型 描述
Apache Hadoop 使用 HDFS 和簡單 MapReduce 程式設計模型的架構,用來處理和分析批次資料。 
Apache Spark 開放原始碼的平行處理架構,可支援記憶體內部處理,以大幅提升巨量資料分析應用程式的效能。
HBase 建置於 Hadoop 上的 NoSQL 資料庫,可針對大量非結構化及半結構化資料 (可能是數十億個資料列乘以數百萬個資料行) 提供隨機存取功能和強大的一致性。 
Apache Interactive Query 更快速進行互動式 Hive 查詢的記憶體內部快取。 
Apache Kafka 用來建置串流資料管線和應用程式的開放原始碼平台。 Kafka 也提供訊息佇列功能,可讓您發佈和訂閱資料流。

版本

定義此叢集的 HDInsight 版本。 HDInsight 4.0 是最新的版本,並能將最新的架構佈建到叢集。

叢集認證

使用 HDInsight 叢集,您可以在建立叢集期間設定兩個使用者帳戶。

叢集登入和密碼

預設使用者名稱是 admin。該使用者會使用 Azure 入口網站上的基本組態。 有時會稱之為「叢集使用者」。

SSH 使用者名稱和密碼

用來透過 SSH 連線到叢集。

注意

企業安全性套件可讓您整合 HDInsight 與 Active Directory 及 Apache Ranger。 使用企業安全性套件可以建立多個使用者。

[儲存體] 索引標籤

HDInsight 叢集可以使用下列儲存體選項,如 [儲存體] 畫面中所示:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure 儲存體一般用途 v2
  • Azure 儲存體一般用途 v1
  • Azure 儲存體區塊 Blob (僅支援作為次要儲存體)

[儲存體] 畫面可讓您定義主要儲存體帳戶和預設容器。 您也可以將其他 Azure 儲存體連結到叢集。 [中繼存放區] 設定可讓您定義外部 SQL 資料庫以在刪除叢集之後儲存 Hive 資料表,以及用來透過將中繼資料儲存在外部存放區中來改善 Oozie 的效能。

Azure 入口網站 [建立 HDInsight 叢集] 畫面中 [儲存體] 索引標籤的螢幕擷取畫面

安全性和網路服務

對於 Hadoop、Spark、HBase、Kafka 互動式查詢叢集類型,您可以選擇啟用 [企業安全性套件]。 此套件能透過使用 Apache Ranger 並與 Microsoft Entra ID 整合,讓您可選擇更安全的叢集設定。

Azure 入口網站 [建立 HDInsight 叢集] 畫面中 [安全性和網路] 索引標籤的螢幕擷取畫面

此外,建議您一律在 VNet 內部署 HDInsight 叢集,且您可以在此畫面中定義及設定虛擬網路。 如果您的解決方案需要會分散到多個 HDInsight 叢集類型的技術,Azure 虛擬網路可以連接必要的叢集類型。 此設定可讓叢集 (以及您對它們部署的任何程式碼) 直接彼此通訊。

設定和定價

此頁面可讓您設定叢集的大小和效能,並檢視估計的成本資訊。 在此畫面中,您可以定義將用於前端 (主要) 節點及背景工作角色節點的虛擬機器。

Azure 入口網站 [建立 HDInsight 叢集] 畫面中 [設定和定價] 索引標籤的螢幕擷取畫面